Review

[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Direct Preference Optimization #Preference Alignment #Adaptive Regularization #Reward Model #Large Language Models #Sentiment Generation

2025년 10월 8일

[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

본 논문은 확산 모델 기반 비디오 생성 과정에서 발생하는 높은 GPU 메모리 사용량 과 긴 추론 시간 문제를 해결하고자 합니다. 특히 기존 캐싱 기반 가속화 방법이 야기하는 메모리 급증 현상 을 극복하고, 모델 훈련 없이 메모리 효율적인 가속화를 달성하여 실제 환경 배포의 제약을 완화하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #Memory Efficiency #Inference Acceleration #Training-Free #Cache Mechanism #GPU Optimization

2025년 10월 8일

[논문리뷰] Less is More: Recursive Reasoning with Tiny Networks

이 논문은 기존의 Hierarchical Reasoning Model (HRM) 이 복잡하고 비효율적이라는 문제점을 해결하기 위해, 더욱 단순하면서도 효율적인 Tiny Recursive Model (TRM) 을 제안합니다.

#Review #Recursive Reasoning #Tiny Networks #Deep Supervision #Hierarchical Reasoning Model (HRM)#Sudoku-Extreme #ARC-AGI #Generalization #Parameter Efficiency

2025년 10월 8일

[논문리뷰] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

이 논문은 기존의 도구 증강 LLM 접근 방식이 긴 추론 과정과 다양한 도구 사용에서 확장성이 떨어지고 새로운 시나리오에 대한 일반화 능력이 약하다는 문제를 제기합니다.

#Review #Agentic Systems #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#On-policy Optimization #Flow-based Group Refined Policy Optimization (Flow-GRPO)#Multi-turn Reasoning

2025년 10월 8일

[논문리뷰] Human3R: Everyone Everywhere All at Once

본 논문은 캐주얼하게 촬영된 모노큘러 비디오로부터 세계 좌표계 상의 온라인 4D 인간-장면 재구성 을 위한 통합적이고 피드포워드 방식의 프레임워크인 Human3R을 제안합니다. 기존의 다단계 파이프라인, 반복적 정제, 그리고 인간 감지 및 SLAM과 같은 무거운 전처리에 대한 의존성 문제를 해결하고자 합니다.

#Review #4D Human-Scene Reconstruction #Online Reconstruction #Multi-person #SMPL-X #Transformer #Visual Prompt Tuning #Real-time #Foundation Model

2025년 10월 8일

[논문리뷰] HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video

기존 3D 재구성 방법론의 한계(불완전한 기하학, 낮은 상호작용성, 물리적 비현실성 등)를 극복하고, 단일 비디오 입력 으로부터 시뮬레이션 준비가 완료된(simulation-ready) , 물리적으로 정확하며 상호작용 가능한 3D 디지털 트윈을 생성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Digital Twin #Scene Graph #Physical Simulation #Interactive Environments #Single Video Reconstruction #Neural Rendering

2025년 10월 8일

[논문리뷰] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation

대규모 언어 모델(LLM)과 소형 언어 모델(SLM)이 RAG 애플리케이션에서 흔히 겪는 환각(Hallucination) 문제를 해결하고, 사용자 신뢰도와 설명 가능성을 저해하는 문제를 완화하는 것이 주요 목표입니다.

#Review #Hallucination Detection #Retrieval-Augmented Generation (RAG)#Small Reasoning Model (SRM)#Preference Fine-tuning #ORPO #Evidence Grounding #Fact-checking

2025년 10월 8일

[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.

#Review #DeepResearch Agents #Tool-integrated Reasoning #Reinforcement Learning #Information Retrieval #Information Synthesis #Multi-agent Self-play #Reward Shaping #LLM

2025년 10월 8일

[논문리뷰] Fast-dLLM v2: Efficient Block-Diffusion LLM

본 논문은 Autoregressive (AR) 대규모 언어 모델(LLMs) 의 본질적인 순차적 디코딩으로 인한 추론 비효율성을 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Inference Acceleration #Parallel Decoding #Autoregressive Models #Caching #Fine-tuning #Block-wise Attention

2025년 10월 8일

[논문리뷰] Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

기존 확산(Diffusion) 및 플로우(Flow) 기반 생성 모델의 비평형, 시간-조건부 동역학 의 한계를 극복하고, 단일 시간 불변 평형 기울기 를 학습하는 새로운 생성 모델링 프레임워크인 Equilibrium Matching (EqM) 을 제안하는 것이 목표입니다.

#Review #Generative Models #Equilibrium Dynamics #Energy-Based Models (EBMs)#Flow Matching #Diffusion Models #Optimization-Based Sampling #Image Generation

2025년 10월 8일

[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

대부분의 기존 egocentric vision 벤치마크가 주간 시나리오에 집중하여 야간의 저조도 환경을 간과하는 문제를 해결하고자 합니다.

#Review #Egocentric Vision #Nighttime Conditions #Visual Question Answering (VQA)#Day-Night Alignment #Multimodal Large Language Models (MLLMs)#Depth Estimation #Correspondence Retrieval #Benchmark

2025년 10월 8일

[논문리뷰] Drax: Speech Recognition with Discrete Flow Matching

자동 음성 인식(ASR) 분야에서 순차적 디코딩 방식의 자기회귀(AR) 모델 이 가진 효율성 병목 현상과 높은 지연 시간을 해결하는 것이 주요 목표입니다.

#Review #Automatic Speech Recognition (ASR)#Discrete Flow Matching (DFM)#Non-Autoregressive (NAR)#Generative Models #Tri-mixture Probability Path #Parallel Decoding #Accuracy-Efficiency Trade-off #Speech Synthesis

2025년 10월 8일

[논문리뷰] Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 환각 현상이 발생하는 내재적이고 아키텍처적 원인 을 규명하는 것을 목표로 합니다.

#Review #LLM Hallucinations #Mechanistic Interpretability #Distributional Semantics Tracing (DST)#Dual-Process Theory #Semantic Drift #Commitment Layer #Faithfulness Score

2025년 10월 8일

[논문리뷰] Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

본 논문은 기존 의료 AI 모델의 모달리티별 단편화 문제를 해결하고, 의료 이미지(방사선, 병리학)와 임상 보고서 간의 통합적인 생성 능력 을 갖춘 범용 의료 AI 에이전트를 개발하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Multimodal Large Language Models (MLLMs)#Medical Image Generation #Medical Report Generation #Multimodal Generation #Medical AI #Cross-modal Alignment

2025년 10월 8일

[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

논문은 멀티-홉 딥 서치 태스크에서 RAG 시스템 및 웹 에이전트 평가의 기존 한계를 해결하고자 합니다.

#Review #Deep Search #Multi-hop Reasoning #Evaluation Benchmark #Retrieval-Augmented Generation #Web Agents #Diagnostic Metrics #Knowledge Utilization #Hint-Free Questions

2025년 10월 8일

[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

기존 Referring Video Object Segmentation (RVOS) 패러다임인 'locate-then-segment' 방식이 정보 병목 현상과 시간적 일관성 부족으로 복잡한 언어 및 동적 비디오 처리에 한계를 보이는 문제를 해결하는 것입니다.

#Review #Referring Video Object Segmentation #Flow Matching #Video Segmentation #Generative Models #Text-to-Video #Continuous Flow #Diffusion Models

2025년 10월 8일

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

대규모 언어 모델(LLM) 배포 환경에서 희소한 명시적 만족(SAT) 피드백 대신, 풍부하게 발생하는 암묵적인 사용자 불만족(DSAT) 신호를 효과적으로 활용하여 모델 성능을 개선하는 확장 가능하고 효율적인 선호 학습 방법론을 개발하는 것이 목표입니다.

#Review #Preference Learning #LLMs #User Feedback #Dissatisfaction Signals #DPO #Iterative Training #RLHF #Exploration

2025년 10월 8일

[논문리뷰] CoDA: Coding LM via Diffusion Adaptation

논문은 AR(Autoregressive) 코드 생성 모델의 한계점, 즉 순차적 오류 전파, 양방향 컨텍스트 활용의 어려움, 코드 채우기(infilling) 기능의 부족을 해결하고자 합니다.

#Review #Diffusion Language Models #Code Generation #Bidirectional Decoding #Text Infilling #Instruction Tuning #Lightweight Models #TPU Training

2025년 10월 8일

[논문리뷰] CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

본 연구는 방사선학 MLLM 에서 시각적 입력과 불일치하는 의료 환각(medical hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Radiology Report Generation (RRG)#Medical Hallucinations #Contrastive Decoding #Training-free Inference #Clinical AI #Visual Question Answering (VQA)

2025년 10월 8일

[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation

감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.

#Review #Emotional Support Conversation #Cognitive Reasoning #Reinforcement Learning #Dialogue Generation #Natural Language Processing #Large Language Models #Psychological Support

2025년 10월 8일