Review

[논문리뷰] Lost in Embeddings: Information Loss in Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 에서 시각적 정보를 언어 모델 임베딩 공간으로 투영하는 커넥터(connector) 모듈로 인해 발생하는 잠재적인 정보 손실 을 정량화하고 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Information Loss #Embeddings #Connectors #k-NN Overlap Ratio #Embedding Reconstruction #Multimodal AI

2025년 9월 16일

[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Visual Reasoning #Reflection #Reinforcement Learning #Visual Attention #Slow Thinking #Multimodal Agents

2025년 9월 16일

[논문리뷰] Locality in Image Diffusion Models Emerges from Data Statistics

본 연구는 확산 모델(Diffusion Models)의 학습된 지역성(locality)이 모델 아키텍처의 귀납적 편향(inductive bias)보다는 이미지 데이터셋의 통계적 속성 에서 비롯된다는 가설을 검증하고자 합니다.

#Review #Diffusion Models #Locality #Data Statistics #Optimal Denoiser #Wiener Filter #Sensitivity Fields #Generative Models #Inductive Bias

2025년 9월 16일

[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.

#Review #Multi-objective Reinforcement Learning #LLM Alignment #Dynamic Reward Weighting #Pareto Front Optimization #Hypervolume Indicator #Gradient-based Optimization #Online RL

2025년 9월 16일

[논문리뷰] LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

본 논문은 드래그 기반 이미지 편집에서 Multi-Modal Diffusion Transformers (MM-DiTs) 의 불안정성을 해결하고, 기존 방식의 암묵적 점 매칭 및 Test-Time Optimization (TTO) 또는 약화된 인버전 강도 의존성으로 인한 한계를 극복하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Multi-Modal Transformers #Drag-based Editing #Explicit Correspondence #Attention Control #Identity Preservation #Training-Free

2025년 9월 16일

[논문리뷰] InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

본 연구는 Embodied AI 의 발전을 위해 기존 3D 장면 데이터셋이 가진 규모, 다양성, 사실적인 레이아웃(특히 작은 객체), 심각한 객체 충돌 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Dataset #Simulation Environment #Scene Generation #Point-Goal Navigation #Realistic Layouts #Object Interaction #Real-to-Sim

2025년 9월 16일

[논문리뷰] GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

본 연구는 대규모 언어 모델(LLM) 기반 임베딩 모델의 배포 문제를 해결하기 위해, 기존 가지치기(pruning) 방법론이 일반적인 의미론적 표현과 도메인 특화 패턴을 구분하지 못하여 발생하는 비최적화된 가지치기 결정 의 한계를 극복하고자 합니다.

#Review #Model Pruning #Domain Adaptation #Embedding Models #Gradient Alignment #Fisher Information #Model Compression #LLMs

2025년 9월 16일

[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.

#Review #Ethical Reasoning #Mental Health AI #Benchmark Dataset #Large Language Models #AI Ethics #Clinical Decision Support #Human-in-the-loop

2025년 9월 16일

[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

본 논문은 대규모 비디오 모델(LVM)이 입력 비디오와 불일치하는 내용을 생성하는 '환각(hallucination)' 문제를 해결하는 것을 목표로 합니다.

#Review #Video Hallucination #Large Video Models (LVMs)#Hierarchical Reasoning #Spatial-Temporal Grounding #Diagnostic Framework #Benchmark Dataset #Multimodal AI

2025년 9월 16일

[논문리뷰] CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

본 연구는 분산형 소셜 미디어 플랫폼인 Bluesky 에서 실시간으로 대규모 공개 담론을 분석하기 위한 확장 가능한 오픈 소스 프레임워크인 CognitiveSky 를 제안합니다.

#Review #Sentiment Analysis #Narrative Analysis #Decentralized Social Media #Bluesky #Transformer Models #Topic Modeling #Real-time Processing #Data Visualization

2025년 9월 16일

[논문리뷰] X-Part: high fidelity and structure coherent shape decomposition

기존 파트 기반 3D 형태 생성 방식이 낮은 제어 가능성과 의미론적으로 불분명한 분해 성능을 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Shape Decomposition #Diffusion Models #Part-level Generation #Controllable Generation #Bounding Box Prompts #Semantic Features #Interactive Editing #Generative AI

2025년 9월 15일

[논문리뷰] Virtual Agent Economies

논문은 자율 AI 에이전트의 급속한 확산으로 인해 발생하는 새로운 경제적 레이어, 즉 '가상 에이전트 경제' 의 등장에 주목하며, 이러한 시스템이 인간의 감독 범위를 넘어설 정도로 확장될 수 있음을 강조합니다.

#Review #AI Agents #Virtual Economy #Multi-Agent Systems #Economic Mechanisms #Governance #Blockchain #Resource Allocation #Agent Alignment

2025년 9월 15일

[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.

#Review #Voice Style Adaptation #Spoken Language Models #Benchmark #LALM-as-a-Judge #Speech Generation #Multilingual #Evaluation Framework

2025년 9월 15일

[논문리뷰] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

본 논문은 대규모 언어 모델(LLM)의 지속적인 스케일링이 한계 효용 체감(diminishing returns)으로 이어지는지에 대한 논쟁을 다루며, 특히 장기적인 태스크(long-horizon tasks) 수행 능력에 초점을 맞춥니다.

#Review #Large Language Models #Long-Horizon Tasks #Execution Capability #Scaling Laws #Self-Conditioning #Thinking Models #Agentic AI

2025년 9월 15일

[논문리뷰] QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading

기존 LLM 기반 금융 시스템이 텍스트 기반 입력에 주로 의존하여 고주파 매매(HFT)의 속도 및 정확성 요구사항에 부적합하다는 한계를 해결하고자 합니다.

#Review #High-Frequency Trading #Multi-Agent Systems #Large Language Models #Technical Analysis #Algorithmic Trading #Financial Reasoning #Price-Driven Signals

2025년 9월 15일

[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarks #Model Context Protocol (MCP)#LLM Evaluation #Agentic AI #Real-World Performance

2025년 9월 15일

[논문리뷰] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

본 논문은 Long-Tailed Semi-Supervised Learning (LTSSL)에서 발생하는 기존 문제점들, 즉 모델의 과신(overconfidence) 과 저품질 의사 레이블(pseudo-labels) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-tailed Learning #Semi-Supervised Learning #Parameter-Efficient Fine-Tuning #Foundation Models #Open-World Scenarios #OOD Detection #Confidence Calibration

2025년 9월 15일

[논문리뷰] IntrEx: A Dataset for Modeling Engagement in Educational Conversations

본 논문은 제2언어 학습자를 위한 교육 대화에서 '흥미로움(interestingness)'과 '예상되는 흥미로움(expected interestingness)'을 모델링하기 위한 IntrEx 데이터셋 을 구축하는 것을 목표로 합니다.

#Review #Educational Dialogue #Engagement Modeling #Dataset Annotation #Second Language Learning #Human Feedback #LLM Alignment #Readability Metrics

2025년 9월 15일

[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models

본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.

#Review #Diffusion LLMs #Reinforcement Learning #Inpainting #Policy Optimization #Exploration #Mathematical Reasoning #GRPO

2025년 9월 15일

[논문리뷰] InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

본 논문은 기존 확산 모델이 고해상도 이미지 생성 시 해상도에 따라 연산 요구량이 제곱으로 증가 하여 4K 이미지 생성에 100초 이상 이 소요되는 문제점을 해결하고자 합니다.

#Review #Image Synthesis #Resolution-Agnostic #Diffusion Models #Latent Space #VAE Decoder #High-Resolution Image Generation #Generative AI #Transformer Architecture

2025년 9월 15일