#Reinforcement Learning

843개의 포스트

[논문리뷰] Understanding Reasoning from Pretraining to Post-Training

본 논문은 LLM 훈련 과정에서 Pretraining 단계의 선택(모델 크기, 데이터 등)이 이후 RL 효율성에 미치는 정량적 관계를 규명하고자 한다.

#Review #Reinforcement Learning #Pretraining #Scaling Law #LLM #Reasoning #Compute Allocation #Policy Evolution

2026년 7월 19일

[논문리뷰] On-Policy Delta Distillation

본 논문은 기존의 On-Policy Distillation (OPD) 방식이 교사 모델의 전체 출력 분포를 모방하는 데 그쳐, 추론 능력 향상에 필수적인 핵심 학습 궤적을 충분히 전달하지 못한다는 문제를 제기합니다 .

#Review #Knowledge Distillation #On-Policy Distillation #Reasoning Capability #Delta Signal #LLM Post-training #Reinforcement Learning

2026년 7월 19일

[논문리뷰] Beyond Entropy: Correctness-Aware Advantage Shaping via Contrastive Policy Optimization

본 논문은 기존 RLVR 방식의 핵심 한계인 Entropy의 '정확성 인식 능력 부재' 문제를 해결합니다. 기존의 Entropy 기반 방식들은 모델의 불확실성을 측정하지만, 이것이 생산적인 탐색인지 아니면 단순한 오류인지 구분하지 못해 최적화의 모호함을 야기합니다 .

#Review #Reinforcement Learning #Advantage Shaping #Contrastive Policy Optimization #RLVR #LLM Reasoning #Token-level Supervision

2026년 7월 19일

[논문리뷰] Agon: Competitive Cross-Model RL with Implicit Rival Grading of Reasoning

본 논문은 기존 GRPO 기반의 LLM 학습이 '추론 과정(trace)'을 평가하지 못하고 최종 정답에만 의존하여 발생하는 'Length Pathology(불필요한 답변 길이 증가)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #GRPO #Competitive Training #Multi-Agent System #Self-Improvement

2026년 7월 19일

[논문리뷰] WanSong v1.0 Technical Report

본 논문은 기존의 Autoregressive(AR) 기반 오디오 생성 모델이 가진 낮은 효율성과 장기 오디오 생성 시의 일관성 유지 문제를 해결하기 위해 고안되었습니다. 기존 연구들은 다단계(Cascaded) 파이프라인이나 AR 모델을 주로 채택하여 복잡성이 높고 효율성이 떨어지는 한계가 있습니다.

#Review #Diffusion-based Model #Music Generation #Dual-stem Modeling #Hybrid-MMDit #Reinforcement Learning #Foundation Model

2026년 7월 16일

[논문리뷰] UniVR: Thinking in Visual Space for Unified Visual Reasoning

본 논문은 현재 AI 모델들이 추론 및 계획 능력을 주로 텍스트 공간 내에서 수행함으로써 발생하는 한계를 지적합니다. 텍스트는 추상적인 표현에 불과하여 물리적 법칙, 복잡한 동적 변화, 공간적 관계를 완벽히 담아내지 못하며, 이로 인해 모델이 실제 시각적 환경에서 일관성 있는 행동을 수행하는 데 어려움을 겪습니다 .

#Review #Visual Reasoning #Reinforcement Learning #Unified Generative Model #Long-horizon Planning #Physical Consistency #World Modeling

2026년 7월 16일

[논문리뷰] Spectral Rewiring for Exploration, Purification, and Model Merging

본 논문은 LLM의 RL post-training 과정에서 발생하는 dense full-parameter 업데이트의 비효율성과 부작용을 해결하고자 합니다 . 기존의 방식은 reasoning 성능을 오히려 억제하거나, 테스트 타임 스케일링에서의 조기 포화(Early saturation) 문제를 야기합니다.

#Review #Reinforcement Learning #Spectral Analysis #Model Merging #Subspace-Aligned Rewiring #Large Language Models #Reasoning Elicitation #Parameter Efficiency

2026년 7월 16일

[논문리뷰] MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

기존의 Diffusion 및 Flow 모델은 고품질 생성을 위해 많은 반복 연산이 필요하여 Latency 측면에서 비효율적이다.

#Review #MeanFlow #Reinforcement Learning #Forward-Process RL #Flow Matching #Few-step Generation #Average Velocity

2026년 7월 16일

[논문리뷰] GRASP: GRanularity-Aware Search Policy for Agentic RAG

본 논문은 Agentic RAG 시스템에서 발생하는 불필요한 노이즈와 잘못된 검색 결정을 방지하고, 다중 단계 추론의 정확도를 높이는 문제를 해결한다. 기존의 Static RAG는 단일 검색으로 인한 정보 부족과 coarse-grained 문맥으로 인한 hallucination 문제에 취약하다.

#Review #Agentic RAG #Reinforcement Learning #Retrieval Policy #Context Granularity #Multi-hop Reasoning #Information Foraging

2026년 7월 16일

[논문리뷰] Demystifying On-Policy Distillation: Roles, Pathologies, and Regulations

본 논문은 최신 LLM post-training의 표준이 된 OPD의 학습 동역학이 여전히 불투명하다는 점을 지적한다. OPD는 때때로 성능 향상을 이끌지만, 많은 경우 불안정성을 보이거나 탐색 붕괴를 초래하며 심지어 outcome-based RL보다 성능이 저하되기도 한다 .

#Review #On-Policy Distillation #LLM Post-training #Reinforcement Learning #Exploration Catalyst #Pathology #Signal Regulation

2026년 7월 16일

[논문리뷰] Ring-Zero: Scaling Zero RL to a Trillion Parameters for Emergent Reasoning

본 논문은 대규모 언어 모델이 단순히 정보를 암기하는 단계를 넘어 고도의 논리적 추론 능력을 갖추기 위한 핵심 동력으로 Zero RL의 확장성을 주목합니다.

#Review #Zero RL #Trillion Parameters #Emergent Reasoning #Reinforcement Learning #Scalability #LLM

2026년 7월 15일

[논문리뷰] OvisOCR2 Technical Report

본 논문은 기존의 문서 파싱 방식인 파이프라인(Pipeline) 모델의 복잡한 배포 구조와 단계별 오류 누적 문제를 해결하고자 OvisOCR2를 제안한다. 기존의 파이프라인 방식은 레이아웃 분석, 콘텐츠 인식, 페이지 병합 등 여러 단계가 분리되어 있어 효율성이 낮고, 한 단계의 오류가 후속 단계로 전파되는 한계가 있다.

#Review #End-to-End Document Parsing #Markdown Serialization #Multimodal Large Language Model #Reinforcement Learning #On-policy Distillation #OvisOCR2

2026년 7월 15일

[논문리뷰] Read It Back: Pretrained MLLMs Are Zero-Shot Reward Models for Text-to-Image Generation

본 논문은 텍스트-이미지 생성(T2I) 모델의 강화학습(RL) 과정에서 효율적이고 신뢰성 높은 보상 모델을 설계하는 것이 어렵다는 점을 해결하고자 합니다 .

#Review #SpectraReward #Self-SpectraReward #Text-to-Image Generation #Reinforcement Learning #MLLM #Prompt-Likelihood Reward #Unified Multimodal Models

2026년 7월 14일

[논문리뷰] MuScriptor: An Open Model for Multi-Instrument Music Transcription

기존의 AMT 연구들은 주로 단일 악기(피아노, 기타 등)에 국한되어 있으며, 다중 악기(Multi-instrument) 환경에서의 실질적인 성능은 매우 저조합니다.

#Review #Automatic Music Transcription #Multi-Instrument #Transformer #Synthetic Pre-training #Reinforcement Learning #Open-Weight Model

2026년 7월 14일

[논문리뷰] Weak-to-Strong Generalization via Direct On-Policy Distillation

본 논문은 대규모 언어 모델의 post-training 단계에서 발생하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 높은 컴퓨팅 비용 문제를 해결하고자 합니다.

#Review #Weak-to-Strong Generalization #Reinforcement Learning #On-Policy Distillation #Policy Shift #Implicit Reward #Post-Training #Large Language Models

2026년 7월 13일

[논문리뷰] UP: Unbounded Positive Asymmetric Optimization for Breaking the Exploration-Stability Dilemma

본 연구는 기존 RL 프레임워크가 사용하는 Importance Sampling (IS) 기반의 클리핑 메커니즘이 LLM의 복잡한 추론 경로 탐색을 구조적으로 제한한다는 문제를 해결합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Stability Dilemma #Importance Sampling #Asymmetric Optimization #Probability Capacity

2026년 7월 9일

[논문리뷰] DrugGen 2: A disease-aware language model for enhancing drug discovery

본 논문은 기존의 약물 생성 모델들이 질병의 맥락을 고려하지 않고 표적 단백질이나 일반적인 분자 특성에만 의존하여 생성된 약물의 치료적 타당성이 부족하다는 문제를 해결하고자 합니다 .

#Review #Drug Design #Drug Repositioning #Large Language Model #Reinforcement Learning #Disease-Aware #GRPO #SMILES

2026년 7월 9일

[논문리뷰] Single-Rollout Asynchronous Optimization for Agentic Reinforcement Learning

본 연구는 대규모 언어 모델(LLM)의 에이전트 학습 과정에서 기존의 동기식 RL 방식이 가진 효율성 한계와 비동기식 RL이 직면한 학습 불안정성 문제를 해결하고자 한다.

#Review #Reinforcement Learning #Asynchronous RL #Single-Rollout #Agentic RL #Token-level Clipping #Value-model Training

2026년 7월 8일

[논문리뷰] Scaling Mixture-of-Experts Video Pretraining for Embodied Intelligence

기존의 비디오 생성 모델들은 주로 시각적 품질과 창의성에 집중하고 있어, embodied intelligence가 요구하는 물리적 현실성(physical realism)과 제어 가능성(controllability)이 부족한 도메인 불일치 문제를 겪고 있습니다.

#Review #Mixture-of-Experts #Video Pretraining #Embodied Intelligence #Diffusion Transformer #Reinforcement Learning #Scalability

2026년 7월 8일

[논문리뷰] TurnOPD: Making On-Policy Distillation Turn-Aware for Efficient Long-Horizon Agent Training

본 논문은 장기 계획 및 에이전트 환경에서 OPD가 겪는 자원 비효율성과 최적화 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Long-Horizon Agents #Turn-Aware #Rollout-Depth Budgeting #Efficiency #Reinforcement Learning

2026년 7월 7일

[논문리뷰] TREK: Distill to Explore, Reinforce to Refine

본 논문은 GRPO 학습 중 발생하는 핵심적 한계인 '탐색 공간의 부족(Inadequate exploration)' 문제를 해결하고자 합니다.

#Review #GRPO #Reinforcement Learning #Distillation #Exploration #Reasoning #Language Models #Policy Optimization

2026년 7월 7일

[논문리뷰] Rank-Then-Act: Reward-Free Control from Frame-Order Progress

일반적인 강화학습 에이전트 학습에 필요한 외적 보상(Extrinsic Reward) 설계는 매우 복잡하거나, 환경의 특성에 따라 보상 기획이 불가능한 경우가 많습니다.

#Review #Reward-Free Control #Vision-Language Models #Ordinal Progress #Spearman Correlation #GRPO #Reinforcement Learning

2026년 7월 7일

[논문리뷰] MentalThink: Shaping Thoughts in Mental SVG World

본 논문은 기존의 언어 중심 Multimodal CoT가 가진 시각적 접지(Visual Grounding)의 취약성과 할루시네이션(Hallucination) 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Spatial Reasoning #Scalable Vector Graphics #Chain-of-Thought #Reinforcement Learning #Mental Imagery

2026년 7월 7일

[논문리뷰] CanvasAgent: Enabling Complex Image Creation and Editing via Visual Tool Orchestration

본 논문은 복잡한 이미지 생성 및 편집 워크플로우를 수행하는 멀티모달 에이전트의 한계를 해결하기 위해 CanvasAgent를 제안한다.

#Review #Multimodal Agents #Image Creation #Tool Orchestration #Reinforcement Learning #Hybrid Reward #Trajectory Optimization

2026년 7월 7일

[논문리뷰] UI-MOPD: Multi-Platform On-Policy Distillation for Continual GUI Agent Learning

GUI agent는 단일 플랫폼을 넘어 다양한 환경(데스크탑, 모바일)으로 확장되고 있으나, 플랫폼 간 이질적인 상호작용 방식과 높은 품질의 교차 플랫폼 궤적 부족으로 인해 학습에 어려움을 겪고 있다 .

#Review #GUI Agent #Multi-Teacher On-Policy Distillation #Continual Learning #Cross-Platform #Desktop/Mobile #Reinforcement Learning

2026년 7월 6일

[논문리뷰] CONFLUX: A Latent Diusion Model for 3D Chest-CT Synthesis with RL Post-Training

본 논문은 3D 의료 영상 합성 모델에서 발생하는 임상적 제어 능력의 부족과 조건부 일치도(Conditioning Faithfulness) 문제를 해결하기 위해 제안되었다.

#Review #Latent Diffusion Model #Chest-CT Synthesis #Rectified-Flow Transformer #Reinforcement Learning #Group-Relative Policy Optimization #Conditioning Faithfulness

2026년 7월 6일

[논문리뷰] The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning

본 논문은 LLM RL 파이프라인에서 발생하는 Training-Inference Mismatch가 단순히 알고리즘적 오류를 넘어 Objective Misalignment를 유발한다는 점을 지적한다.

#Review #Large Language Model #Reinforcement Learning #Training-Inference Mismatch #Monotonic Policy Improvement #Policy Optimization #Alignment

2026년 7월 5일

[논문리뷰] AGE: Adaptive-masking for Graph Embedding in Graph Retrieval-Augmented Generation

현재 GraphRAG 연구는 그래프의 복잡한 관계를 LLM이 효과적으로 이해하도록 하는 데 어려움을 겪고 있다. 특히 기존의 비모수적(non-parametric) 검색 방식은 그래프 내 필수적인 구조 정보를 누락하거나 중복되는 노드를 포함하는 경우가 많아, 전체적인 검색 정확도와 추론 성능을 저하시키는 원인이 된다.

#Review #GraphRAG #Adaptive-masking #Graph Embedding #Self-Supervised Learning #JEPA #Reinforcement Learning

2026년 7월 5일

[논문리뷰] Optimizing Visual Generative Models via Distribution-wise Rewards

본 논문은 시각적 생성 모델의 강화학습 과정에서 발생하는 Reward Hacking과 이로 인한 생성 다양성 저하 및 시각적 결함 문제를 해결하고자 합니다.

#Review #Distribution-wise Reward #Reinforcement Learning #Visual Generative Models #Subset-replace Strategy #Model Merging #Flow Matching #FID

2026년 7월 2일

[논문리뷰] Breaking Failure Cascades: Step-Aware Reinforcement Learning for Medical Multimodal Reasoning

본 논문은 의료 분야의 MLLM(Multimodal Large Language Model)이 추론 과정에서 겪는 Sparse Credit Assignment 문제와 그로 인한 Failure Cascades 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Medical Reasoning #Reinforcement Learning #Process Supervision #Failure Cascades #Advantage Shaping #VQA

2026년 7월 2일

[논문리뷰] When LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors

본 논문은 LLM이 표 기반 작업에서 구조를 이해하더라도 데이터를 인용하는 과정에서 '부주의'하게 오류를 범하는 Data Referencing Errors (DREs) 문제를 해결하고자 합니다 .

#Review #Large Language Models #Table Reasoning #Data Referencing Errors #Rejection Sampling #Critic Model #Reinforcement Learning

2026년 7월 1일

[논문리뷰] Personalization as Inverse Planning: Learning Latent Design Intents for Agentic Slide Generation via Structural Denoising

본 논문은 기존의 AI 에이전트 기반 슬라이드 생성 시스템이 가진 Page-level 디자인의 한계를 해결하고자 합니다. 기존 방식들은 사전에 정의된 템플릿에 의존하거나, 사용자의 장황한 직접 지시(verbose instructions)에만 의존하여 개인화된 디자인 의도를 파악하는 데 실패합니다.

#Review #Page-level Slide Personalization #Inverse Planning #Structural Denoising #Reinforcement Learning #Latent Design Intent #Multi-agent Framework #Agentic Workflow

2026년 7월 1일

[논문리뷰] Perceive-to-Reason: Decoupling Perception and Reasoning for Fine-Grained Visual Reasoning

본 논문은 VLM이 고해상도 이미지 내의 미세한 시각적 단서를 인식하고 추론하는 능력이 부족하다는 문제에 주목합니다 .

#Review #Fine-Grained Visual Reasoning #VLM #Perceiver #Reasoner #Reinforcement Learning #PRA-GRPO #Decoupling

2026년 7월 1일

[논문리뷰] Xiaomi-GUI-0 Technical Report

본 연구는 기존 GUI 에이전트 연구들이 의존하는 정적인 벤치마크나 시뮬레이션 환경이 실제 모바일 기기의 복잡한 상태 분포를 반영하지 못하는 한계를 해결하기 위해 수행되었다.

#Review #GUI Agent #VLM #Real-Device #Reinforcement Learning #Data Flywheel #End-to-End #Mobile Automation

2026년 6월 30일

[논문리뷰] Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs

본 연구는 LLM이 높은 자신감으로 환각(hallucination)을 생성하거나 지식의 경계를 식별하지 못하는 등 시스템적인 Metacognition 결핍 문제를 해결하고자 합니다 . 기존 모델들은 내부의 불확실성을 제대로 인지하지 못하거나 이를 언어적으로 정직하게 표현하지 못하는 한계가 있습니다.

#Review #LLM #Metacognition #Reinforcement Learning #Faithful Calibration #Uncertainty #Preference Optimization #Metacognitive Feedback

2026년 6월 30일

[논문리뷰] QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

본 논문은 Long-horizon LLM Agent의 학습을 저해하는 희소 보상(Sparse Reward) 문제를 해결하기 위한 dense supervision 방법론들을 효율적으로 평가하고자 합니다 .

#Review #LLM Agents #Dense Supervision #Reinforcement Learning #Q-alignment #Evaluation Benchmark #Long-Horizon #Training-Free

2026년 6월 30일

[논문리뷰] Dockerless: Environment-Free Program Verifier for Coding Agents

본 논문은 기존의 실행 기반(Execution-based) 프로그램 검증기가 가진 과도한 엔지니어링 오버헤드와 비확장성 문제를 해결하기 위해 Dockerless를 제안합니다.

#Review #Coding Agents #Environment-Free #Program Verifier #SWE-bench #Reinforcement Learning #Supervised Fine-tuning

2026년 6월 30일

[논문리뷰] TACO: Tool-Augmented Credit Optimization for Agentic Tool Use

본 논문은 에이전트의 불필요하거나 오도하는 도구 호출 문제를 해결하기 위해, 도구 호출 자체의 기여도를 정밀하게 평가하는 최적화 프레임워크를 제안한다.

#Review #Agentic Tool Use #Reinforcement Learning #Multimodal Models #Credit Assignment #Tool-Augmented Credit Optimization #GRPO #Differential Answer-Probe Reward

2026년 6월 29일

[논문리뷰] GUICrafter: Weakly-Supervised GUI Agent Leveraging Massive Unannotated Screenshots

본 논문은 GUI agent 학습 시 발생하는 데이터 확보의 고비용 문제와 이로 인한 성능 저하를 해결하기 위해 제안되었습니다.

#Review #GUI Agent #Weakly-Supervised Learning #Reinforcement Learning #Visual Grounding #Curriculum Learning #Data Efficiency

2026년 6월 29일

[논문리뷰] ProMSA:Progressive Multimodal Search Agents for Knowledge-Based Visual Question Answering

본 논문은 KB-VQA의 고질적인 문제인 정적인 파이프라인의 한계를 극복하고, 모델이 예산 효율적으로 정보를 검색하며 스스로 추론하는 에이전트 시스템을 구축하는 것을 목적으로 한다. 기존 연구들은 고정된 top-k 설정에 의존하여 검색된 정보가 불충분하거나 잘못된 경우 이를 수정할 수 없는 고착 상태에 빠지기 쉽다 .

#Review #Knowledge-Based Visual Question Answering #Multimodal Search Agent #Progressive Retrieval #Reinforcement Learning #Tool-Normalized GSPO

2026년 6월 28일

[논문리뷰] Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement

본 논문은 imitation learning 기반의 VLA가 실제 로봇의 정밀한 물리적 상호작용에서 발생하는 오차 누적으로 인해 빈번히 실패하는 문제를 해결하고자 한다.

#Review #Vision-Language-Action Models #Reinforcement Learning #Sim-to-Real Transfer #Robot Manipulation #Object-Centric #Residual RL

2026년 6월 28일

[논문리뷰] NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

본 연구는 Flow-matching 모델의 RL post-training 시 발생하는 reward over-optimization과 그에 따른 지각적 품질 저하 문제를 해결합니다.

#Review #Reinforcement Learning #Flow-Matching #Norm Inflation #Reward-Preserving #Perceptual Quality #Regularization

2026년 6월 28일

[논문리뷰] Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It

본 논문은 다단계 도구 사용 태스크에서 RL 기반 최적화가 겪는 학습 불안정성과 성능 정체 문제를 해결하고자 합니다.

#Review #Tool Learning #Reinforcement Learning #Structural Collapse #Supervisory Signals #Interleaved Training #Process Reflection Supervision

2026년 6월 25일

[논문리뷰] How Post-Training Shapes Biological Reasoning Models

본 논문은 생물학적 추론 모델 개발에서 Post-Training 과정이 모델의 일반화 능력과 과잉 최적화(Over-specialization)에 미치는 영향을 체계적으로 규명한다.

#Review #Biological Reasoning #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Generalization #Foundation Models

2026년 6월 25일

[논문리뷰] Discretizing Reward Models

본 논문은 현대의 Reward Model들이 성능 측정 지표상으로는 우수해 보이지만, 실제 Reinforcement Learning 과정에서 응답의 유용성을 과도하게 구별하는 Oversensitivity 문제로 인해 저품질 정책을 유도한다는 점을 문제로 제기합니다 .

#Review #Reward Model #Reinforcement Learning #Oversensitivity #Discretization #Reward Clustering #Monte Carlo Dropout #Discriminative Ability #Specificity

2026년 6월 25일

[논문리뷰] COrigami: An AI Pipeline for Co-Designing Flat-Foldable Visually Recognisable Origami

본 논문은 현대의 생성형 AI가 물리적인 제약 조건과 인간의 미적 취향을 동시에 만족시키는 물리적 예술 작품을 설계하는 데 한계가 있다는 점을 지적합니다.

#Review #Computational Origami #Flat-Foldable #Reinforcement Learning #Vision-Language Model #Neuro-symbolic Pipeline #Box Pleating #Crease Pattern

2026년 6월 25일

[논문리뷰] The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

이 가이드는 현대 AI 시스템의 전체 스택을 이해하고 구축하고자 하는 연구자와 실무자를 위해, LLM의 기초 아키텍처부터 autonomous agentic 시스템까지를 통합적으로 설명합니다.

#Review #LLM #Reinforcement Learning #Agentic AI #System Architecture #Retrieval-Augmented Generation #Chain-of-Thought #Multi-Agent Systems

2026년 6월 24일

[논문리뷰] RL-Index: Reinforcement Learning for Retrieval Index Reasoning

본 논문은 복잡한 논리적 추론이 필요한 검색 과제에서 기존 모델들이 겪는 한계를 극복하기 위해 제안되었다. 기존의 Query Rewriting 기반 접근 방식은 실시간으로 LLM을 호출해야 하므로 상당한 Online Latency를 유발하는 문제가 있다 .

#Review #Retrieval-Augmented Generation #Reinforcement Learning #Agentic Indexing #Group Relative Policy Optimization #Document Augmentation #Latency Optimization

2026년 6월 24일

[논문리뷰] Qwen-AgentWorld: Language World Models for General Agents

본 연구는 대규모 언어 모델(LLM) 기반 에이전트가 효과적으로 작동하기 위해 필수적인 환경 시뮬레이션 능력, 즉 World Model의 부재를 해결하고자 합니다. 기존 연구는 에이전트의 정책(Policy) 결정에만 집중할 뿐, 환경의 동역학을 예측하는 World Model 구축에는 소홀했습니다.

#Review #Language World Model #Agentic Environment #Foundation Model #Reinforcement Learning #Chain-of-Thought #Agentic Agents #Simulation Fidelity

2026년 6월 23일

[논문리뷰] OpenThoughts-Agent: Data Recipes for Agentic Models

본 논문은 에이전트용 모델을 학습시키기 위한 데이터 큐레이션(Data Curation) 방법론이 공개적으로 거의 알려져 있지 않은 문제를 해결하고자 한다.

#Review #Agentic Models #Data Curation #Supervised Fine-Tuning #Reinforcement Learning #Scaling Laws #Agentic Benchmarks

2026년 6월 23일

[논문리뷰] Thinking with Visual Grounding

본 논문은 기존 VLM(Vision-Language Model)의 추론 과정이 언어적 논리에는 치중되어 있으나, 정작 그 논리의 근거가 되는 이미지 내 특정 영역을 명시하지 않아 검증이 어렵다는 문제를 해결하고자 합니다.

#Review #Visually Grounded Thinking #Vision-Language Models #Reinforcement Learning #Visual Grounding #SAM3 #Spatial Reasoning

2026년 6월 18일

[논문리뷰] DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

본 연구는 관절형 물체를 조작할 때 발생하는 hand-object interaction (HOI) 의 물리적 안정성 문제를 해결하고자 합니다.

#Review #Dexterous Manipulation #Articulated Object Manipulation #Hand-Object Interaction #Reinforcement Learning #Contact-Driven #Physically Informed #Robustness

2026년 6월 18일

[논문리뷰] SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks

본 논문은 frontier multimodal scientific reasoning 분야에서 단일 상용 LLM 시스템이 전문가 수준의 성능을 달성하지 못하는 한계를 극복하고자 합니다.

#Review #Multimodal Scientific Reasoning #LLM Orchestration #MCTS #Reinforcement Learning #Expert Model Delegation #Agentic Workflow

2026년 6월 17일

[논문리뷰] STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

본 논문은 RLVR 기반의 LLM 학습 과정에서 빈번하게 발생하는 Policy Entropy Collapse 문제를 해결하고자 합니다. 기존의 GRPO는 학습이 지속됨에 따라 출력 다양성이 사라지고 모델이 조기에 수렴하는 현상을 겪으며, 이는 장기적인 포스트 트레이닝의 병목 현상으로 작용합니다 .

#Review #Reinforcement Learning #Policy Entropy #GRPO #Advantage Reweighting #Surprisal #LLM Post-training #Credit Assignment

2026년 6월 17일

[논문리뷰] Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

본 논문은 기존의 Spatial VLM들이 가진 복합적인 공간 추론 능력의 한계를 극복하고자 합니다. 현재의 모델들은 단순한 기하학적 인식에는 강점을 보이나, 깊이 정보와 거리 비교, 장면 관계가 얽힌 복합적인 다단계 추론에는 여전히 취약합니다 .

#Review #Spatial Vision-Language Models #Reinforcement Learning #Dual-Path Reasoning #Chain-of-Thought #3D Grounding #Geometric Reasoning

2026년 6월 17일

[논문리뷰] RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

본 논문은 Multi-turn Tool-Use 에이전트 학습 시 발생하는 데이터 부족 및 정보 밀도 감소 문제를 해결하고자 합니다.

#Review #Multi-turn Tool-Use #Reinforcement Learning #Data Synthesis #Gradient Variance #Capability Boundary #Agentic RL #Replay Buffer

2026년 6월 17일

[논문리뷰] Native Active Perception as Reasoning for Omni-Modal Understanding

본 논문은 기존의 패시브한 Long Video Understanding 모델들이 가진 컴퓨팅 자원 및 성능의 한계를 해결하기 위해 제안되었습니다. 기존 연구들은 비디오 전체를 균일하게 처리하거나 전역적 사전 스캔에 의존함으로써, 비디오 길이에 따라 계산 비용이 선형적으로 증가하는 고질적인 병목 현상을 겪고 있습니다 .

#Review #Omni-modal Understanding #Active Perception #POMDP #Agentic Reasoning #Test-time Scaling #TAURA #Reinforcement Learning

2026년 6월 17일

[논문리뷰] Learning User Simulators with Turing Rewards

본 논문은 기존의 사용자 시뮬레이터 학습 방식이 실제 인간의 행동을 충분히 모사하지 못하는 근본적인 한계를 해결하고자 합니다. 기존 연구들은 주로 Log-probability 최대화 또는 Ground truth 응답과의 단순 Similarity를 측정하는 방식에 의존해 왔습니다.

#Review #User Simulation #Turing Reward #Reinforcement Learning #Large Language Models #Indistinguishability #GRPO #Human-likeness

2026년 6월 17일

[논문리뷰] From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

본 연구는 RL 학습 환경을 수동으로 설계하는 기존 파이프라인의 비효율성과 확장성 한계를 해결하고자 수행되었습니다. 기존의 RL 학습은 환경 설정이 고정되어 있거나, 전문가가 휴리스틱에 의존하여 학습 커리큘럼을 직접 조정해야 하므로 복잡한 시나리오에서의 일반화 및 최적화 능력이 저하되는 문제가 있습니다.

#Review #Reinforcement Learning #LLM-as-Environment-Engineer #Multi-Agent Path Finding #MAPF-FrozenLake #Self-Improvement #Policy Conditioning

2026년 6월 17일

[논문리뷰] EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

본 논문은 LLM의 RL 학습 과정에서 발생하는 Rollout 생성의 고질적인 Latency 문제를 해결하기 위해 고안되었습니다.

#Review #Reinforcement Learning #Speculative Decoding #Self-Speculative Decoding #LLM Rollout #System-Aware #Quantization

2026년 6월 17일

[논문리뷰] Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

본 논문은 소형 모델(Small-scale Student)의 지식 전달(Knowledge Transfer) 시 발생하는 일반화 성능 저하 및 강화학습의 비효율성 문제를 해결하고자 합니다.

#Review #ZPPO #Reinforcement Learning #Knowledge Distillation #Prompt Engineering #VLM #LLM #Policy Gradient #Zone of Proximal Development

2026년 6월 16일

[논문리뷰] VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

본 논문은 3B 파라미터 규모의 소형 모델(SLM)이 대형 모델(LLM)의 전유물로 여겨지던 최전선 수준의 논리적 추론 능력을 달성할 수 있는지 검증하고자 한다.

#Review #Small Language Models #Verifiable Reasoning #Reinforcement Learning #Parametric Compression-Coverage Hypothesis #Reasoning-Knowledge Decoupling #Test-time Scaling

2026년 6월 15일

[논문리뷰] GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

본 논문은 LLM의 다차원적 성능 향상을 위해 사용되는 Multi-Reward RL 환경에서 발생하는 Advantage 상쇄 문제를 해결하고자 한다.

#Review #Reinforcement Learning #Multi-Reward Optimization #Policy Optimization #Conflict Mitigation #Dynamic Filtering #Tool Calling #Alignment

2026년 6월 15일

[논문리뷰] FastContext: Training Efficient Repository Explorer for Coding Agents

본 논문은 LLM 기반 코딩 에이전트의 저장소 탐색 단계에서 발생하는 고비용 토큰 소비 및 불필요한 컨텍스트 오염 문제를 해결하기 위해 제안되었다. 기존 에이전트들은 동일한 모델이 탐색과 문제 해결을 모두 수행하여, 탐색 과정에서 누적된 방대한 양의 관련 없는 코드 스니펫이 주 모델의 컨텍스트를 오염시킨다 .

#Review #Coding Agents #Repository Exploration #Subagent Architecture #Supervised Fine-Tuning #Reinforcement Learning #Context Efficiency #Token Consumption

2026년 6월 15일

[논문리뷰] DreamX-World 1.0: A General-Purpose Interactive World Model

본 논문은 다양한 visual domain(photorealistic, game-style, stylized) 전반에서 카메라 탐색 및 이벤트 조작을 실시간으로 지원하는 general-purpose interactive world model 구축을 목표로 합니다 .

#Review #Interactive World Model #Camera Control #E-PRoPE #Memory-Conditioned Scene Persistence #Event Instruction Tuning #Autoregressive Distillation #Reinforcement Learning

2026년 6월 15일

[논문리뷰] VISTA: View-Consistent Self-Verified Training for GUI Grounding

본 논문은 기존의 GRPO를 활용한 GUI Grounding 학습에서 발생하는 보상 퇴화(reward degeneracy) 문제를 해결하는 데 집중합니다.

#Review #GUI Grounding #GRPO #Self-Verified Training #View-Consistent #Reinforcement Learning #VLM

2026년 6월 14일

[논문리뷰] Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

본 논문은 GRPO (Group Relative Policy Optimization) 기반 LLM 학습에서 rollout diversity를 향상시키기 위한 새로운 차원을 식별한다.

#Review #GRPO #LLMs #Policy-Level Diversity #Token-Level Diversity #S2L-PO #Reinforcement Learning #Mathematical Reasoning #Parameter-Level Compression

2026년 6월 14일

[논문리뷰] Orchestra-o1: Omnimodal Agent Orchestration

본 논문은 기존의 LLM 기반 에이전트가 단일 양식 혹은 제한적인 멀티모달 환경에 최적화되어 있어, 실생활의 복잡한 옴니모달(Omnimodal) 작업을 처리하는 데 한계가 있다는 문제의식에서 출발합니다.

#Review #Omnimodal Agent #Agent Orchestration #Task Decomposition #Multi-Agent System #Reinforcement Learning #DA-GRPO

2026년 6월 14일

[논문리뷰] AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

본 논문은 Multimodal Foundation Models (MFMs)가 물리적 세계의 3D 공간을 추론하는 데 있어 근본적인 한계를 지니고 있음을 지적합니다.

#Review #AlloSpatial #Spatial Reasoning #Allocentric Cognitive Mapping #World2Mind #Spatial Reasoning Harness #Foundation Models #Reinforcement Learning

2026년 6월 14일

[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다.

#Review #Streaming Reasoning #Reinforcement Learning #Hierarchical Relative Policy Optimization #Adaptive Computation #Large Language Models #Chain-of-Thought

2026년 6월 14일

[논문리뷰] Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback

본 논문은 현대의 T2I 모델이 생성하는 이미지의 국소적이고 미묘한 결함을 효과적으로 진단하고 해결하지 못하는 기존 scalar 기반 평가 방식의 한계를 해결하고자 합니다.

#Review #Text-to-Image #Structured Defect Grounding #VLM #Diffusion Model Alignment #Reinforcement Learning #BoxFlow-GRPO #Dataset

2026년 6월 11일

[논문리뷰] N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization

본 연구는 LLM의 강화학습 과정 중 Rollout 단계에서 발생하는 효과적인 탐색(Exploration)의 부족과 기존 방법론의 한계점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Semantic Neighbor Mixing #Policy Optimization #Embedding Space #Latent Reasoning

2026년 6월 11일

[논문리뷰] MuJoCo-Drones-Gym: A GPU-Accelerated Multi-Drone Simulator for Control and Reinforcement Learning

본 논문은 기존 쿼드콥터 시뮬레이터들이 가진 물리적 정확성, Multi-agent 지원, 그리고 현대적인 Deep RL 파이프라인에 필요한 처리량(Throughput) 간의 Trade-off 문제를 해결하고자 합니다.

#Review #Multi-drone Simulator #MuJoCo #Reinforcement Learning #GPU Acceleration #MJX #Aerial Robotics #Gymnasium

2026년 6월 11일

[논문리뷰] MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

본 논문은 대규모 언어 모델이 수학적 증명 문제에서 겪는 Hallucination과 Logical Inconsistency 문제를 해결하는 것을 핵심 목표로 합니다.

#Review #Mathematical Reasoning #Reinforcement Learning #Test-Time Scaling #Generative-Verifier #Formal Verification #Scalable Alignment

2026년 6월 11일

[논문리뷰] InterleaveThinker: Reinforcing Agentic Interleaved Generation

본 논문은 기존의 Unified Multimodal Models(UMMs)가 장기 시퀀스 생성 과정에서 겪는 Visual Over-reliance와 Step-wise Error Accumulation 문제를 해결하기 위해 고안되었습니다.

#Review #Interleaved Generation #Multi-Agent Framework #Reinforcement Learning #GRPO #Visual Over-reliance #Error Accumulation

2026년 6월 11일

[논문리뷰] FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

본 연구는 Deep Search Agents가 훈련 과정에서 데이터셋 내의 의도치 않은 패턴인 Shortcut에 과도하게 의존하여 실제 검색 환경에서 성능이 저하되는 현상을 해결합니다.

#Review #Deep Search Agents #Shortcut-Resistant #Task Synthesis #Representation Learning #Reinforcement Learning #Information Retrieval #Robustness

2026년 6월 11일

[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Policies #Test-Time Guidance #Gradient-based Optimization #Trajectory Optimization #Policy Search

2026년 6월 9일

[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.

#Review #LLM Agents #Trajectory Optimization #Self-Preference #Reinforcement Learning #Alignment #Inference Optimization

2026년 6월 9일

[논문리뷰] How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs

LLM의 추론 과정은 내부적인 Information Flow가 불투명한 'Black Box' 형태로 작동하여 모델이 왜 특정 추론 결과를 도출하는지 설명하기 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reasoning Process #Attention Mechanism #Information Flow #Reinforcement Learning

2026년 6월 9일

[논문리뷰] Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating

본 연구는 모델이 사용자에게 맞추려는 경향성인 Sycophancy가 결과적으로 모델의 근본적인 Safety Alignment를 훼손하고 Emergent Misalignment를 초래한다는 점에 주목합니다.

#Review #Sycophancy #Emergent Misalignment #Alignment Gating #Safety Alignment #Reinforcement Learning

2026년 6월 9일

[논문리뷰] SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

본 논문은 현대의 Deep Research Agents가 성공률만을 극대화하려는 brute-force 학습 전략으로 인해 심각한 연산 비효율성에 직면했다는 문제를 제기합니다.

#Review #Web Agents #Training Efficiency #Reward Gating #Adaptive Efficiency Anchoring #Pareto Frontier #Reinforcement Learning #Supervised Fine-Tuning

2026년 6월 8일

[논문리뷰] Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

본 논문은 LLM post-training에서 활용되는 기존의 reward evaluation 방식이 이질적인 평가 기준을 통합하는 데 한계를 보이고 있다는 점을 지적한다.

#Review #Reward Modeling #Agent Skills #LLM-as-a-Judge #Reinforcement Learning #Instruction Following #Evidence-based Evaluation

2026년 6월 8일

[논문리뷰] Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

본 논문은 LLM이 외부 Judge의 평가를 사전에 예측하여 스스로 자신의 답변을 재평가하거나 선별할 수 있는지에 대한 근본적인 의문을 탐구합니다.

#Review #Large Language Models #Self-Evaluation #Calibration #Reinforcement Learning #Elicitation #Distillation #Alignment

2026년 6월 8일

[논문리뷰] PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

본 논문은 long-horizon agentic task에서 발생하는 sparse reward로 인한 credit assignment의 근본적인 한계를 해결하고자 한다.

#Review #Reinforcement Learning #Long-Horizon Credit Assignment #Bayesian Inference #Self-Distillation #Search Agents #Agentic RL

2026년 6월 8일

[논문리뷰] Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

기존의 VLM들은 관측된 이미지에 제한되어 있어 보이지 않는 레이아웃을 추론하거나 시점 변화에 따른 공간적 일관성을 유지하는 데 한계를 보입니다. 특히 제한적인 일인칭 관측 환경에서는 alternative viewpoint에서 장면을 파악해야 할 필요성이 크지만, 현 모델들은 이를 능동적으로 해결하지 못합니다.

#Review #Vision-Language Models #Spatial Reasoning #World Simulator #Reinforcement Learning #View Consistency #Agentic Reasoning

2026년 6월 7일

[논문리뷰] Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

본 연구는 LLM 기반 소프트웨어 엔지니어링 에이전트가 고품질 태스크 데이터 부족으로 인해 학습 및 일반화 성능이 제한되는 문제를 해결하고자 합니다. 기존 합성 데이터 생성 방식은 고정된 규칙이나 무작위 버그 주입에 의존하여 에이전트의 실제 취약점이나 학습 진행 상황을 반영하지 못한다는 한계가 있습니다.

#Review #Software Engineering #Large Language Models #Reinforcement Learning #Self-Evolution #Agent Skills #Trace-Driven Learning #Code Repair

2026년 6월 7일

[논문리뷰] SIA: Self Improving AI with Harness & Weight Updates

본 논문은 기존 AI 자기 개선 연구가 Harness(scaffold) 개선과 Test-time training(weight updates)이라는 두 가지 고립된 사일로(silo)로 나뉘어 있는 한계를 해결하고자 한다 .

#Review #Self-Improving Agents #Test-Time Training #Reinforcement Learning #Harness Engineering #Scaffold Generation #LoRA

2026년 6월 7일

[논문리뷰] Reinforcement Learning from Rich Feedback with Distributional DAgger

본 연구는 기존의 RLVR 패러다임이 가진 극심한 희소 보상 문제와 그에 따른 부적절한 신용 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Rich Feedback #Self-Distillation #DAgger #Policy Optimization #Credit Assignment

2026년 6월 7일

[논문리뷰] VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

본 논문은 현대의 멀티모달 모델들이 단순한 시각적 인식을 넘어 전문적인 도메인 지식과 다단계 추론이 필요한 비디오 이해 태스크에서 한계를 보인다는 점을 지적한다.

#Review #Video Understanding #Knowledge-Intensive Reasoning #Training Corpus #CoT #Benchmark #Skill-Oriented #Reinforcement Learning

2026년 6월 4일

[논문리뷰] Towards One-to-Many Temporal Grounding

본 연구는 기존 Temporal Grounding 연구들이 주로 단일 세그먼트 검색(One-to-One)에 치중되어 있어, 실세계의 반복적인 이벤트 구조를 다루지 못한다는 한계를 해결합니다.

#Review #Temporal Grounding #MLLM #One-to-Many #Reinforcement Learning #Event Cardinality #Benchmark

2026년 6월 4일

[논문리뷰] Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation

본 논문은 초저자원(Extreme Low-resource) 언어 번역을 위해 모델이 특정 언어를 암기하는 방식에서 벗어나, 언어에 독립적인 Meta-skill을 습득하게 하는 새로운 학습 프레임워크를 제안합니다.

#Review #Low-resource Translation #Reinforcement Learning #In-context Learning #Meta-skill #Language-independent Learning #Meta-linguistic Reasoning

2026년 6월 4일

[논문리뷰] Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

본 논문은 메모리 기반 LLM agent가 장기적인(long-horizon) 과업 수행 시 발생하는 성능 저하 문제를 해결하기 위해 연구되었습니다.

#Review #LLM Agents #Long-Horizon Reasoning #Belief Entropy #Memory Optimization #Reinforcement Learning #Metacognition

2026년 6월 4일

[논문리뷰] MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding

본 논문은 범용 Multimodal Large Language Models (MLLMs)가 기계 공학 도면의 복잡성과 도메인 특수성을 제대로 해석하지 못하는 문제를 해결하고자 한다.

#Review #Multimodal Large Language Models #Mechanical Drawing Understanding #Visual Question Answering #Spatial Reasoning #Reinforcement Learning #Domain-Specialized Benchmark

2026년 6월 4일

[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다.

#Review #Video Event Prediction #Multimodal Large Language Models #Latent Visual Reasoning #Interleaved Reasoning #Reinforcement Learning #Future-L1 #LA-DAPO

2026년 6월 4일

[논문리뷰] Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination

본 논문은 RLVR의 확장을 가로막는 핵심 병목인 '도전적인 검증 가능(verifiable) 코드 데이터의 희소성' 문제를 해결하고자 합니다.

#Review #RLVR #Synthetic Data #Atomic Decomposition #Code Generation #Scaling #Reinforcement Learning

2026년 6월 4일

[논문리뷰] ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

본 논문은 LRMs가 추론 과정에서 '오버씽킹(overthinking)' 현상으로 인해 불필요하게 긴 CoTs를 생성하여 비효율적인 계산 자원을 소모하는 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Reinforcement Learning #Chain-of-Thoughts #Preference Learning #Reasoning Efficiency #Redundancy Mitigation

2026년 6월 3일

[논문리뷰] Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

본 논문은 이미지 레이어 분해(Layer Decomposition) 모델의 학습에서 발생하는 데이터 부족 및 정답의 모호성 문제를 해결하기 위해 제안되었습니다. 기존 모델은 합성된 레이어 데이터셋에 의존하여 학습되는데, 이는 단일 정답을 강요함으로써 레이어 분해의 유연성을 제한하고 다양한 편집 가능성을 저해합니다 .

#Review #Image Layer Decomposition #Reinforcement Learning #Vision-Language Model #Flow-GRPO #LoRA #VLM-as-Judge

2026년 6월 3일

[논문리뷰] Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

본 연구는 Rubric-based RL에서 발생하는 보상 해킹의 불투명성을 해결하기 위해 수행되었습니다. 실제 환경에서는 모델의 답변 품질과 평가자의 잠재적 편향이 혼재되어 있어, 보상 해킹의 발현 시점을 정확히 파악하거나 해킹의 원인을 단일 요소로 분리하기가 어렵습니다 .

#Review #Reinforcement Learning #Reward Hacking #LLM-as-a-Judge #Alignment #Policy Gradient #Alignment #Evaluation

2026년 6월 3일

[논문리뷰] MemTrain: Self-Supervised Context Memory Training

본 논문은 장기적인 컨텍스트를 처리해야 하는 LLM 에이전트에서 Memory 병목 현상을 해결하는 것을 핵심 문제로 다룹니다 . 기존의 연구들은 전체 입력 기록을 컨텍스트에 모두 포함시키는 방식을 사용했으나, 이는 계산 비용의 급격한 증가를 초래합니다.

#Review #LLM Agents #Context Memory #Self-Supervised Learning #Reinforcement Learning #GRPO #Long-Horizon Reasoning

2026년 6월 3일

[논문리뷰] Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

본 논문은 MLLM이 물리적 환경에서 복잡한 공간 추론을 수행하기 위해 필수적인 Wide-Baseline Matching 능력을 체계적으로 학습하고 평가할 프레임워크가 부족하다는 점을 문제로 지적합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Wide-Baseline Matching #Reinforcement Learning #Curriculum Learning #Vision-Language Benchmarks

2026년 6월 3일

[논문리뷰] BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

본 논문은 최신 Frontier LLM들이 기존의 코딩 벤치마크(LiveCodeBench 등)에서 90% 이상의 높은 Pass@1 성능을 기록하며 벤치마크가 포화(Saturation)되는 문제를 해결하고자 합니다.

#Review #Frontier LLM #Coding Benchmark #Task Evolution #Solution-Centric #Reinforcement Learning #Executable Semantics #Self-Improvement

2026년 6월 3일

[논문리뷰] TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

본 연구는 시각적 추론(visual reasoning)을 위한 RL 학습 시, 정적 데이터셋(static datasets)이 가진 한계를 극복하기 위해 수행되었습니다.

#Review #Reinforcement Learning #Visual Reasoning #Online Environment #Multimodal Large Language Models #Rule-Verifiable #Curriculum Learning

2026년 6월 2일

[논문리뷰] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

본 논문은 LLM의 추론 성능을 높이기 위한 Test-Time Scaling이 과도한 연산 비용과 지연 시간(Latency)을 초래한다는 문제를 해결하고자 합니다.

#Review #Test-Time Scaling #Adaptive Sampling #Reinforcement Learning #Markov Decision Process #Inference Efficiency #Large Language Models

2026년 6월 2일

[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .

#Review #Multi-Agent RL #LLM Workflows #Reinforcement Learning #Policy-Sharing #Gradient Dynamics #Role Drift

2026년 6월 1일

[논문리뷰] Policy and World Modeling Co-Training for Language Agents

본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.

#Review #Language Agents #Reinforcement Learning #World Modeling #Co-Training #On-policy RL #Clipped MAE #Reward-adaptive Loss

2026년 6월 1일

[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.

#Review #PEFT #LoRA #Personal Models #Reinforcement Learning #MoE #Infrastructure #Scaling Laws

2026년 6월 1일

[논문리뷰] Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

본 연구는 기존 검색 에이전트들이 semantic 검색 결정과 복잡한 상태 관리(bookkeeping)를 동시에 수행함에 따라 발생하는 학습의 비효율성과 성능 저하 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Reinforcement Learning #Stateful Harness #Cognitive Offloading #Search Agents

2026년 6월 1일

[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization

본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.

#Review #Reinforcement Learning #Large Language Models #Proximal Policy Optimization #Early Stopping #Reasoning #Compute Efficiency #Credit Assignment

2026년 6월 1일

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] Task-Focused Memorization for Multimodal Agents

본 논문은 멀티모달 에이전트가 방대한 스트리밍 데이터 속에서 '무엇을 메모리화할 것인가'를 스스로 판단해야 하는 문제를 해결하고자 한다.

#Review #Multimodal Agents #Long-term Memory #Reinforcement Learning #Task-Focused Memorization #Direct Preference Optimization #Streaming VQA

2026년 5월 31일

[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.

#Review #Self-Play #Open-Ended Tasks #Reinforcement Learning #Rubric Reward #Retrieval-Augmented Generation #Co-Evolution #Data-Free

2026년 5월 31일

[논문리뷰] SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

본 논문은 Agentic Search 시스템에서 발생하는 심각한 Over-search 문제를 해결하기 위해 SAAS 프레임워크를 제안합니다.

#Review #Agentic Search #Reinforcement Learning #Over-Search Mitigation #Knowledge Boundary #Search Efficiency #Reward Hacking

2026년 5월 31일

[논문리뷰] LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

본 논문은 기존 long-context 강화학습이 가진 데이터의 낮은 난이도와 보상 신호의 희소성(Sparsity) 문제를 해결하고자 합니다.

#Review #Long-Context #Reinforcement Learning #Rubric Reward #Search Agent Trajectories #Tiered Distractors #Multi-hop Reasoning

2026년 5월 31일

[논문리뷰] GrepSeek: Training Search Agents for Direct Corpus Interaction

본 논문은 기존의 retrieval-augmented agentic search 시스템이 pre-computed index와 retriever에 의존함으로써 발생하는 한계를 해결하고자 합니다.

#Review #Direct Corpus Interaction #Search Agent #Reinforcement Learning #Sharded-Parallel Execution #Information Retrieval #Agentic Search

2026년 5월 31일

[논문리뷰] GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

dLLMs는 기존의 Autoregressive Models(ARMs) 대비 효율적인 생성 성능을 제공하지만, 최적의 성능을 위해 필요한 강화학습(RL) 적용 시 정책 likelihood가 계산 불가능하다는 핵심적인 난관에 직면합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Self-Distillation #Training-Inference Mismatch #Logit Matching

2026년 5월 31일

[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #Multi-Turn Optimization #Importance Sampling #Distribution Matching

2026년 5월 31일

[논문리뷰] When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

본 논문은 LLM이 장기적인 상호작용 속에서 누적되는 정보들 중 무엇을 믿고, 무엇을 수정하며, 무엇을 무시해야 하는지에 대한 문제(CBM)를 해결하고자 합니다. 기존의 LLM은 문맥 내에서 제공되는 형식적 증거를 따르기보다 사전 학습된 파라메트릭 지식이나 문맥상의 노이즈에 과도하게 의존하는 경향이 있습니다 .

#Review #Contextual Belief Management #Large Language Models #BeliefTrack #Reinforcement Learning #Contextual Interference #Symbolic Verification

2026년 5월 28일

[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.

#Review #Reinforcement Learning #Factuality #Process Supervision #Wikipedia #Co-occurrence #Large Language Models #GRPO

2026년 5월 28일

[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.

#Review #Reward Modeling #Rubric-based Evaluation #Reinforcement Learning #Pointwise Reward #LLM Alignment #Preference Optimization

2026년 5월 28일

[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.

#Review #Embodied Intelligence #Vision-Language-Action Models #Flow-matching #Multi-task Learning #Cross-embodiment #Reinforcement Learning

2026년 5월 28일

[논문리뷰] LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

본 논문은 RL post-training 과정에서 발생하는 data contamination이 모델의 평가 신뢰성과 일반화 성능을 저해한다는 문제를 지적한다. 기존의 탐지 방식은 주로 token likelihood나 entropy 등 출력(Output-level) 신호에 의존해왔다.

#Review #Data Contamination #Reinforcement Learning #Membership Inference Attack #Representation Geometry #Representation Dynamics #Model Interpretability

2026년 5월 28일

[논문리뷰] AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

본 논문은 현대 에이전트 시스템(예: OpenClaw)의 강력한 실행 능력으로 인해 기존 안전성 프레임워크가 대응하기 어려운 광범위한 위험 요소가 발생하고 있다는 문제의식에서 출발한다. 기존 연구들은 주로 단일 시점의 입력이나 출력만을 평가하여 궤적 전체에 누적되는 복합적인 위험 패턴을 탐지하는 데 한계가 있었다 .

#Review #Agent Safety #Alignment Framework #AgentDoG 1.5 #Trajectory-level Diagnosis #Reinforcement Learning #Online Guardrail

2026년 5월 28일

[논문리뷰] ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

본 논문은 추천 시스템이 과거 데이터를 단순히 모방하는 것을 넘어, 사용자의 선호도를 새로운 영역으로 확장하는 Proactive Recommendation의 한계를 해결하고자 한다.

#Review #Proactive Recommendation #Reinforcement Learning #Policy Gradient Estimation #Path Feasibility #Guidance Effectiveness

2026년 5월 27일

[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.

#Review #Video Generation #Diffusion Transformers #Sparse Attention #Sequence Parallelism #Quantization #Reinforcement Learning

2026년 5월 27일

[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.

#Review #Multi-Token Prediction #Reinforcement Learning #Optimization #Optimal Coefficient Calibration #Large Language Models #Mathematical Reasoning

2026년 5월 27일

[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.

#Review #Sparse Autoencoder #LLM Post-training #Reinforcement Learning #Data Engineering #Mechanistic Interpretability #Curriculum Learning #Data Selection

2026년 5월 27일

[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.

#Review #Reinforcement Learning #Reasoning Models #Denoising Reasoning #Weak-to-Strong Generalization #Self-correction #Large Language Models

2026년 5월 27일

[논문리뷰] AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 Long-Horizon Tasks 수행 능력 향상에 Scaling Out 전략이 기여할 수 있는지에 대한 연구를 수행한다.

#Review #Agent Scaling #Collective Reasoning #Long-Horizon Tasks #Shared Reasoning Hub #Multi-Agent Systems #Homogeneous Teams #Heterogeneous Teams #Reinforcement Learning

2026년 5월 27일

[논문리뷰] Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

본 논문은 vision-language models(VLMs)의 agentic reasoning 과정에서 발생하는 '도구 사용의 비효율성' 문제를 해결하고자 합니다.

#Review #Multimodal Agentic Reasoning #Reinforcement Learning #GRPO #AXPO #Tool-call Resampling #Thinking-Acting Gap #Vision-Language Models

2026년 5월 27일

[논문리뷰] MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

모바일 GUI Agent 연구는 빠른 발전을 보였지만, 현재 평가 및 훈련 환경은 근본적인 Trade-off 문제에 직면해 있다.

#Review #Mobile GUI Agent #Simulation Environment #Reinforcement Learning #Verifiable Outcome Signals #Interaction Fidelity #MobileGym-Bench #Sim-to-Real Transfer

2026년 5월 26일

[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.

#Review #Video Generation #Benchmarking #Cinematic Quality #VLM #Chain-of-Thought #Human-Machine Alignment #Evaluation Framework #Reinforcement Learning

2026년 5월 26일

[논문리뷰] QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

본 논문은 Deep Research Agents의 광범위한 역량을 갖춘 훈련 방식의 불투명성과 기존 Open-weight 모델들의 한계점을 해결하고자 한다.

#Review #Deep Research Agents #Synthetic Data #Rubric Tree #Context Management #Reinforcement Learning #Fact Seeking #Citation Grounding #Report Synthesis

2026년 5월 25일

[논문리뷰] Macaron-A2UI: A Model for Generative UI in Personal Agents

본 논문은 Personal Agent가 복잡하고 사용자 중심적인 Task를 처리함에 따라, 기존의 Static Plain-Text Chat이 병목 현상으로 작용하는 문제를 해결하고자 한다.

#Review #Generative UI #Personal Agents #A2UI #Reinforcement Learning #Supervised Fine-tuning #Dialogue Systems

2026년 5월 25일

[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Long-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.

#Review #Long-Horizon #Self-Distillation #Hindsight Experience Replay #Reinforcement Learning #Sparse Reward #Goal-Conditioned Policy

2026년 5월 24일

[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward

본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.

#Review #Video Generation #Alignment #Metric Geometry #Reward Model #Reinforcement Learning #Diffusion Models

2026년 5월 24일

[논문리뷰] Unsupervised Process Reward Models

본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.

#Review #Unsupervised Learning #Process Reward Models #Reinforcement Learning #Reasoning #Test-time Scaling #LLM-as-a-Judge

2026년 5월 21일

[논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

본 논문은 기존의 프롬프트 기반 스프레드시트 에이전트가 실제 비즈니스 환경의 복잡하고 다단계적인 워크플로우를 처리하는 데 한계가 있다는 문제 의식에서 출발한다.

#Review #Large Language Model Agents #Reinforcement Learning #Spreadsheet Automation #GRPO #Excel Environment #Domain-Spreadsheet Benchmark

2026년 5월 21일

[논문리뷰] Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

본 논문은 현대 LLM 에이전트가 특정 도메인에 강점을 가진 다양한 전문가 모델과 모듈식 스킬을 효과적으로 활용하지 못하는 Coordination Bottleneck 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal Agent #Orchestration #Skill Library #Expert Models #Hierarchical Registry

2026년 5월 21일

[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models

본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.

#Review #Large Language Models #Reinforcement Learning #RLVR #Unlearnability #Gradient Outliers #Representation Learning

2026년 5월 20일

[논문리뷰] Stitched Value Model for Diffusion Alignment

본 논문은 diffusion model의 효과적인 alignment를 위해 noisy latent regime에서 정확하고 효율적인 Value Function을 구축하는 문제를 다룬다.

#Review #Diffusion Models #Alignment #Value Function #Model Stitching #Reward Modeling #Inference-time Steering #Reinforcement Learning

2026년 5월 20일

[논문리뷰] PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models

본 논문은 기존의 계획 벤치마크가 고정된 인스턴스 집합에 의존하여 시나리오의 다양성과 구조적 복잡도를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 단순히 프롬프트 길이 등 표면적인 지표로 난이도를 측정하며, 자동화된 검증 및 확장 가능한 데이터 생성이 결여되어 있었습니다.

#Review #Large Language Models #PlanningBench #Constraint-driven Synthesis #Reinforcement Learning #Verifiable Data #Taxonomy

2026년 5월 20일

[논문리뷰] Mem-π: Adaptive Memory through Learning When and What to Generate

본 논문은 기존 LLM 에이전트의 정적인 메모리 검색 패러다임이 갖는 한계를 극복하기 위해 제안되었습니다. 현재의 메모리 증강 에이전트들은 주로 외부 저장소에서 과거의 경험을 검색하는 방식에 의존하지만, 이러한 검색된 데이터는 현재의 에이전트 맥락과 맞지 않거나 지나치게 특수하여 범용성이 떨어지는 문제가 있습니다.

#Review #Large Language Model Agents #Generative Memory #Reinforcement Learning #Adaptive Memory #Abstention Policy #Decoupled Policy Optimization

2026년 5월 20일

[논문리뷰] IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

본 논문은 MLLM의 강력한 제로샷 성능에도 불구하고, 고도의 정밀함이 요구되는 산업 환경에서 도메인 불일치 및 구조적 환각(structural hallucination)으로 인해 발생하는 이상 탐지 성능 저하 문제를 해결합니다 .

#Review #Industrial Anomaly Detection #Multimodal Large Language Models #Agentic Framework #Reinforcement Learning #Tool Augmentation #Zero-shot Learning

2026년 5월 20일

[논문리뷰] Video Models Can Reason with Verifiable Rewards

본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .

#Review #Video Generation #Reinforcement Learning #Verifiable Rewards #Video Reasoning #Diffusion Models #Flow-Matching #RLVR

2026년 5월 19일

[논문리뷰] GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

본 논문은 현재 긴 문맥 이해를 위한 RL 학습이 데이터의 편향된 구성과 보상 신호의 불균일성으로 인해 비효율적으로 진행된다는 점을 핵심 문제로 지적한다.

#Review #Long-Context RL #Capability-Oriented Data #Reinforcement Learning #Multitask Alignment #Advantage Estimation #TMN-Reweight

2026년 5월 19일

[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.

#Review #Reinforcement Learning #Self-Distillation #Reasoning #Pointwise Mutual Information #LLM #GRPO #Jensen-Shannon Divergence

2026년 5월 19일

[논문리뷰] VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

본 논문은 기존의 LLM 기반 비디오 이해 모델들이 겪는 공간적·시간적 참조의 모호성 문제를 해결하기 위해 VideoSeeker를 제안한다.

#Review #Large Vision-Language Models #Instance-level Video Understanding #Visual Prompts #Agentic Tool Invocation #Reinforcement Learning #Data Synthesis Pipeline

2026년 5월 18일

[논문리뷰] OProver: A Unified Framework for Agentic Formal Theorem Proving

본 논문은 기존 formal theorem proving 시스템이 증명 실패 시의 feedback과 retrieval을 inference-time heuristic으로만 사용하여 학습과 추론 간의 불일치(mismatch)가 발생하는 문제를 해결하고자 합니다.

#Review #Formal Theorem Proving #Lean 4 #Agentic Proving #Compiler Feedback #Test-Time Refinement #Reinforcement Learning

2026년 5월 18일

[논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

기존의 비디오 생성 모델 정렬 기법들은 주로 노이즈 기반의 탐색(exploration)이나 SDE 기반의 surrogate policy를 사용하여, 결정론적(deterministic) ODEdynamics로 작동하는 distilled AR 모델의 특성과 상충하는 문제를 야기합니다 .

#Review #Autoregressive Video Generation #Reinforcement Learning #Policy Optimization #Flow Matching #KV Caching #Causal-Semantic Exploration #Trajectory Velocity Energy

2026년 5월 18일

[논문리뷰] AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

본 연구는 기존 VLM 에이전트가 긴 호흡의 공간적 과업(long-horizon spatial tasks)을 수행할 때 발생하는 '공간적 맹목(spatial blindness)'과 '모달리티 불일치(modality mismatch)' 문제를 해결합니다.

#Review #VLM Agents #Visual Skill Memory #Reinforcement Learning #Reward Shaping #Spatial Reasoning #Self-Evolving

2026년 5월 18일

[논문리뷰] Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

본 논문은 LLM 기반의 자율 에이전트가 시장에서 상호작용할 때 발생하는 체계적인 경제적 리스크를 해결하고자 한다. 기존의 AI 정렬 방식은 개별 에이전트의 사실성이나 무해성에만 집중할 뿐, 다수의 에이전트가 상호작용하며 만드는 시장 수준의 불안정성을 제어하지 못한다.

#Review #Multi-Agent Systems #Economic Alignment #Large Language Models #Simulation Framework #Market Stability #Reinforcement Learning

2026년 5월 18일

[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .

#Review #Large Language Models #Competitive Programming #Agentic Evolution #Reinforcement Learning #Knowledge Network #Code Generation #Multi-Agent System

2026년 5월 17일

[논문리뷰] PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control

본 연구는 기존 GUI 에이전트들이 주로 의존하는 'region-tolerant' 패러다임이 정밀한 기하학적 구성 작업에서 실패하는 근본적인 문제를 해결하고자 한다.

#Review #GUI Agents #Geometric Reasoning #Precision-Sensitive #Dependency-Structured Planning #Pixel-Grounded Supervised Tuning #Reinforcement Learning #Semantic-Execution Gap

2026년 5월 17일

[논문리뷰] Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

본 논문은 RLVR 환경에서 고질적인 문제인 탐색의 병목 현상을 해결하고자 합니다. 기존 방식은 탐색 효율을 높이기 위해 샘플링 횟수(Rollout)를 무작정 늘리는 방식을 취하지만, 이는 계산 비용이 극심하고 long-tail에 위치한 희귀한 정답 추론 경로를 발견하는 데 한계가 있습니다 .

#Review #RLVR #Reinforcement Learning #Exploration #LLM Reasoning #Strategy Nudging #Inter-Intra Group Advantage #Distillation

2026년 5월 17일

[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.

#Review #Reinforcement Learning #Large Language Models #Verifiable Rewards #Policy Optimization #Error Correction #Reasoning Capability

2026년 5월 17일

[논문리뷰] Hölder Policy Optimisation

본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.

#Review #Reinforcement Learning #Large Language Models #Hölder Mean #Gradient Concentration #Policy Optimisation #Group Relative Policy Optimisation (GRPO)

2026년 5월 17일

[논문리뷰] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization

본 논문은 Video Diffusion Model의 효율적인 정렬(Alignment)을 위한 단일 단계(Single-step) 훈련 프레임워크인 Flash-GRPO를 제안합니다 .

#Review #Video Diffusion Models #Group Relative Policy Optimization #Reinforcement Learning #Single-step Training #Iso-temporal Grouping #Temporal Gradient Rectification #Alignment

2026년 5월 17일

[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Reinforcement Learning #Diffusion Models #Test-time Scaling #Model Alignment #Efficient Inference

2026년 5월 14일

[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training

본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Reward Modeling #Agentic AI #Self-Evolution #Multimodal Evaluation #In-Context Learning #Reinforcement Learning

2026년 5월 14일

[논문리뷰] RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

본 논문은 기존의 고성능 양방향(Bidirectional) 비디오 확산 모델이 실시간 스트리밍 생성에는 부적합하다는 점을 해결하고자 합니다. 기존의 인과적(Causal) 자동 회귀 모델들은 학습 단계에서 사용하는 히스토리 분포와 실제 추론 시의 분포가 달라 품질이 저하되는 문제가 있습니다.

#Review #Autoregressive Video Generation #Diffusion Models #Consistency Models #Reinforcement Learning #GRPO #Training-Time Test #Video Extrapolation

2026년 5월 14일

[논문리뷰] PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

본 논문은 현재의 비디오 생성 모델이 높은 시각적 사실성에도 불구하고, 인체의 관절 움직임과 같은 물리적 법칙을 심각하게 위반하는 아티팩트를 빈번하게 생성한다는 문제점에 주목합니다 .

#Review #Human Video Generation #Reinforcement Learning #Motion Reward #Physical Feasibility #3D Human Motion #SMPL #MuJoCo

2026년 5월 14일

[논문리뷰] Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

본 논문은 언어 모델의 자기 개선(Self-improvement)이 단순히 정적인 데이터셋을 모방하는 것을 넘어, 모델이 자신을 학습시킬 새로운 환경을 스스로 구축해야 한다는 관점에서 출발합니다.

#Review #Reinforcement Learning #Reasoning RL #Verifiable Environment Synthesis #Self-Improving LLM #Stable Solve–Verify Asymmetry

2026년 5월 14일

[논문리뷰] FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

본 논문은 open-ended 코딩 훈련을 위한 고품질 데이터의 부족 문제를 해결하기 위해 FrontierSmith를 제안합니다.

#Review #FrontierSmith #Open-ended Coding #LLM #Idea Divergence #Automated Data Synthesis #Reinforcement Learning

2026년 5월 14일

[논문리뷰] CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

본 논문은 현대의 Vision-Language Models(VLMs)가 시각적 입력으로부터 위상적 위계 구조를 정확하게 파악하는 데 한계를 보인다는 문제를 해결하고자 합니다.

#Review #Topological Reasoning #Vision-Language Models #Jordan Curves #Reinforcement Learning #Structured Prediction #Containment Tree

2026년 5월 14일

[논문리뷰] Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

본 논문은 현대의 Omni-modal LLM들이 기록하는 벤치마크 성능 향상이 진정한 모달리티 통합(integration)보다는 visual shortcut을 활용한 결과일 수 있다는 문제를 제기합니다.

#Review #Omni-modal LLM #Visual Leakage #OmniClean #Staged Post-Training #Self-Distillation #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

본 논문은 LLM reasoning을 위한 On-Policy Self-Distillation (OPSD)에서 teacher-side exposure mismatch라는 간과된 bottleneck을 식별하고 해결하고자 합니다.

#Review #Self-Distillation #LLM Reasoning #Teacher Exposure #On-Policy #Adaptive Control #Reinforcement Learning #Beta-policy

2026년 5월 14일

[논문리뷰] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

본 연구는 고도의 수학 및 과학 Olympiad 문제에서 금메달 수준의 추론 능력을 갖춘 모델을 만들기 위한 간단하고 통합된 레시피를 제안합니다. 기존의 일반적인 추론 모델들은 수학적 문제 해결에서 단기적인 성과를 내지만, 복잡한 증명 문제에 필요한 엄격한 추론과 검증 능력이 부족하다는 한계가 있습니다.

#Review #Olympiad Reasoning #Reinforcement Learning #Test-time Scaling #Supervised Fine-tuning #Reasoning Models #Proof-search #Reverse-Perplexity Curriculum

2026년 5월 14일

[논문리뷰] RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data

본 논문은 로봇 조작(Robotic Manipulation) 분야에서 작업에 최적화된 물리적 상호작용 데이터가 부족하다는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language Models #Video Generation Models #Self-Evolving Framework #Complementary Learning Systems #Data Efficiency #Reinforcement Learning

2026년 5월 13일

[논문리뷰] MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading

본 논문은 기존 long-context reasoning 모델들이 겪는 '정보의 영구적 손실'과 '무분별한 검색으로 인한 노이즈 유입' 문제를 해결하기 위해 MemReread를 제안한다. 기존 retrieval 기반 에이전트는 검색 쿼리의 부정확성과 불필요한 검색으로 인해 핵심 신호가 희석되는 한계를 가진다 .

#Review #Long-Context Reasoning #Agentic Memory #Rereading #Reinforcement Learning #GRPO #Information Retrieval #Contextual Inference

2026년 5월 13일

[논문리뷰] HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution

본 논문은 기존의 에이전트 메모리 시스템이 정적인 검색(Static Lookup)이나 고정된 휴리스틱 그래프 탐색에 의존하여 장기 기억 활용의 효율성이 저하되는 문제를 해결하고자 합니다.

#Review #Agentic Memory #Graph-based Retrieval #Reinforcement Learning #Query-Conditioned Traversal #Multi-Relational Graph #Memory-Augmented Generation

2026년 5월 13일

[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.

#Review #LLM #Reinforcement Learning #Retrieval & Ranking #GRPO #Factorized Policy #Sequential Recommendation #Multi-hop Question Answering

2026년 5월 13일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

본 논문은 Verifiable Reward(검증 가능한 보상)가 부재한 Open-ended 환경에서 Deep Research 에이전트를 효율적으로 학습시키는 문제를 해결하고자 한다.

#Review #Meta-RL #Deep Research #Reinforcement Learning #Policy Decomposition #Rubric-guided #Stagewise Credit Assignment #Reflection Meta-Policy

2026년 5월 12일

[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning

본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.

#Review #Large Language Models #Reinforcement Learning #Reasoning #Decision Points #Sparse Policy Selection #Contrastive Fine-Tuning #Entropy-Gated

2026년 5월 10일

[논문리뷰] HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

본 논문은 기존 Multimodal search agents가 다중 엔티티 검색 시 직면하는 비효율적인 순차적(sequential) 툴 호출 문제를 해결하기 위해 제안되었다.

#Review #Multimodal Search Agents #Reinforcement Learning #Efficiency-Aware #Unified Grounded Search #Parallel Tool Calling #IMEB Benchmark #On-Policy Distillation

2026년 5월 10일

[논문리뷰] Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning

본 논문은 기존 QFWP(Quantum Fast Weight Programmers)가 사용하는 다중 큐비트 회로가 NISQ(Noisy Intermediate-Scale Quantum) 장치에서 확장하기 어렵고, 고전적 시뮬레이션 비용이 크다는 문제를 해결하고자 한다.

#Review #Fast Weight Programming #Quantum Machine Learning #Kolmogorov-Arnold Networks #Sequence Modeling #Reinforcement Learning

2026년 5월 10일

[논문리뷰] Flow-OPD: On-Policy Distillation for Flow Matching Models

본 논문은 Flow Matching 모델의 다중 작업 정렬(multi-task alignment) 과정에서 발생하는 보상 희소성(reward sparsity)과 기울기 간섭(gradient interference) 문제를 해결하고자 합니다.

#Review #Flow Matching #On-Policy Distillation #Reinforcement Learning #Multi-task Alignment #Manifold Anchor Regularization #Text-to-Image

2026년 5월 10일

[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL

본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Diffusion Models #Reinforcement Learning #Multi-Reward Optimization #Gradient Harmonization #Reward Balancing #Alignment

2026년 5월 7일

[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.

#Review #LLM #Multi-Agent Systems #Reinforcement Learning #Orchestration Trace #Credit Assignment #Reward Design #System Engineering

2026년 5월 5일

[논문리뷰] Healthcare AI GYM for Medical Agents

본 논문은 의료 AI 에이전트가 복잡한 다단계 임상 추론 환경에서 안정적인 툴 사용 정책을 학습하는 데 한계가 있다는 문제를 해결하고자 합니다. 기존의 단일 턴(single-turn) 기반 의료 QA 연구들은 실제 임상 환경의 핵심인 다단계 상호작용과 툴 활용 능력을 충분히 반영하지 못합니다.

#Review #Medical AI Agents #Reinforcement Learning #On-Policy Distillation #Clinical Reasoning #Multi-turn Interaction #Healthcare AI GYM

2026년 5월 5일

[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.

#Review #Multimodal LLM #Reinforcement Learning #On-Policy Distillation #Distributional Drift #Mixture-of-Experts (MoE)#Adversarial Alignment

2026년 5월 5일

[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

본 연구는 기존 LLM 기반 웹사이트 생성 방식이 겪고 있는 확장성 및 품질 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Website Generation #GRPO #Multimodal Reward #React

2026년 4월 23일

[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.

#Review #LLM Agents #Long-Horizon Tasks #Skill Discovery #Co-Evolution #Skill Bank #Reinforcement Learning

2026년 4월 23일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] Near-Future Policy Optimization

본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.

#Review #Reinforcement Learning #RLVR #Mixed-Policy #Trajectory Quality #Variance Cost #Self-Taught RL #LLM Post-training

2026년 4월 22일

[논문리뷰] DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

저자들은 텍스트 기반의 합성 비디오에서 hybrid imitation target을 추출하여 이를 통해 humanoid control policy를 학습하는 DeVI 프레임워크를 제안합니다 . 우선 3D 인간 모델과 물체를 포함한 씬에서 텍스트 프롬프트를 사용하여 2D HOI 비디오를 생성합니다.

#Review #Dexterous Manipulation #Video Generative Models #Physics-based Simulation #Reinforcement Learning #Human-Object Interaction

2026년 4월 22일

[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.

#Review #Deep Research Agents #Edge-Scale Models #Open Data #Reinforcement Learning #Information Gain #Supervised Fine-Tuning

2026년 4월 22일

[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .

#Review #Uniform Discrete Diffusion Model #Reinforcement Learning #GRPO #Text-to-Image Generation #Policy Optimization #Distribution Alignment

2026년 4월 21일

[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models

본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.

#Review #Test-time Training #Large Reasoning Models #Expectation-Maximization #Actor-Critic #Reinforcement Learning #Scalability #Diversity

2026년 4월 21일

[논문리뷰] HP-Edit: A Human-Preference Post-Training Framework for Image Editing

본 논문은 기존의 이미지 편집 모델이 SFT(Supervised Fine-Tuning) 데이터의 품질 불일치와 실제 인간 선호도와 동떨어진 결과물을 생성하는 문제를 해결하고자 한다.

#Review #Image Editing #Human-Preference Alignment #Reinforcement Learning #Flow Matching #Visual Large Language Model

2026년 4월 21일

[논문리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs

본 논문은 기존 MLLM이 고정된 컨텍스트 윈도우와 'one-size-fits-all' 패러다임에 갇혀, 시간이 지남에 따라 변하는 사용자의 취향과 성격을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Long-term Personalization #Memory Architecture #Personality Alignment #Agent Framework #Reinforcement Learning

2026년 4월 19일

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Large Language Models #Reinforcement Learning #Exploration-Exploitation Trade-Off #Perplexity #Reward Shaping

2026년 4월 19일

[논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

본 논문은 Reinforcement Learning을 통해 최적의 도구 사용 전략을 자동 학습하는 RadAgent 프레임워크를 제안합니다. RadAgent는 초기 보고서 초안을 작성한 후, 임상 진단 체크리스트를 기반으로 단계별 에이전트 루프를 거치며 필요한 도구를 호출하고 결과를 업데이트합니다 .

#Review #RadAgent #Reinforcement Learning #Vision-Language Models #Chest CT #Medical Report Generation #Tool-using AI Agent #Faithfulness #Robustness

2026년 4월 16일

[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Long-context #Sparsity #Activation Patterns #Saliency-guided

2026년 4월 16일

[논문리뷰] SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

본 논문은 3D 공간 추론 학습에서 데이터 주석(annotation) 비용과 모델 합의(consensus) 기반 학습의 한계 문제를 해결하고자 합니다.

#Review #Spatial Reasoning #Self-Evolution #Vision-Language Models #Deterministic Geometric Environment #Reinforcement Learning

2026년 4월 15일

[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.

#Review #RationalRewards #Preference-Anchored Rationalization #Visual Generation #Reasoning-based Reward Model #Reinforcement Learning #Prompt Tuning

2026년 4월 15일

[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.

#Review #Large Language Models #Reinforcement Learning #Pre-train Space #Policy Reincarnation #Negative Sample Reinforcement #Reasoning Enhancement

2026년 4월 15일

[논문리뷰] POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP

본 연구는 ISP 최적화 문제를 단계적 의사결정이 아닌 단일 forward pass를 통한 전역적 시퀀스 예측 문제로 재정의한다. Sequence predictor는 GRU를 통해 이전 모듈의 컨텍스트를 고려하여 전체 모듈 시퀀스를 예측하고, Parameter predictor는 입력 이미지에 특화된 매개변수를 생성한다 .

#Review #ISP #Reinforcement Learning #Task-aware #Sequence Optimization #Pipeline Design

2026년 4월 9일

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일

[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .

#Review #Omni-modal Reasoning #Reinforcement Learning #Self-supervised Learning #Jigsaw Proxy Task #Modality Orchestration #Data Filtering

2026년 4월 9일

[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Constrained Policy Optimization #Chain-of-Thought #Visual Spatial Reasoning #Lagrangian Relaxation #Faithfulness

2026년 4월 9일

[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.

#Review #Agentic Search #Reinforcement Learning #Hierarchical Experience #Policy Optimization #Contrastive Distillation #Self-Reflection

2026년 4월 9일

[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .

#Review #Multimodal Large Language Models #Agentic Systems #Reinforcement Learning #Hierarchical Decoupled Policy Optimization #Meta-Cognitive Tool Use #Efficiency #Reasoning

2026년 4월 9일

[논문리뷰] Learning to Hint for Reinforcement Learning

본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Hint Generation #Advantage Collapse #Transferability

2026년 4월 8일

[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.

#Review #Diffusion Models #Reinforcement Learning #FP4 Quantization #Rollout Scaling #Alignment #Efficiency #Two-stage Framework

2026년 4월 8일

[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.

#Review #Agentic Graph Learning #Reinforcement Learning #Large Language Models #Graph-Native Search #Curriculum Learning

2026년 4월 8일

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

본 논문은 정적인 과학 그래픽을 편집 가능한 TikZ 코드로 역공학(Reverse-engineering)하는 과정에서 발생하는 엄격한 공간적 제약 문제를 해결하고자 합니다.

#Review #Graphics Program Synthesis #TikZ #Reinforcement Learning #Multimodal Large Language Models #Self-Consistency #Round-Trip Verification

2026년 4월 7일

[논문리뷰] QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

본 논문은 LLM 기반의 자동 프로그램 복구 기법에서 빈번하게 발생하는 Over-editing 문제를 해결하고자 합니다. 기존 모델들은 복구의 정확성(Correctness)만을 최적화하기 때문에, 버그를 정교하게 식별하지 못하고 전체 코드를 과도하게 수정하는 경향이 있습니다.

#Review #Program Repair #Over-editing #LLMs #Reinforcement Learning #EA-GRPO #Speculative Edits #Code Maintainability

2026년 4월 7일

[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.

#Review #Multimodal Embedding #Large Language Models #Chain-of-Thought #Reinforcement Learning #Latent Variable #Causal Inference

2026년 4월 7일

[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .

#Review #Diffusion Large Language Models #Post-Training #Reinforcement Learning #Unified Framework #Systems Optimization

2026년 4월 7일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] Self-Execution Simulation Improves Coding Models

본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.

#Review #Code LLM #Execution Simulation #Self-Verification #Self-RLEF #Reinforcement Learning

2026년 4월 6일

[논문리뷰] Self-Distilled RLVR

본 논문은 OPSD 가 훈련 초기에는 성능 향상을 보이나, 곧 정보 누출(Information Leakage)로 인해 성능이 저하되는 원인을 규명하고 이를 해결하고자 합니다.

#Review #LLM Post-training #Reinforcement Learning #Self-Distillation #Information Asymmetry #Credit Assignment #RLVR

2026년 4월 5일

[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Chain-of-Thought #Efficiency #RLVR #Multi-Domain #Reasoning

2026년 4월 2일

[논문리뷰] ASI-Evolve: AI Accelerates AI

본 논문은 현대 AI 연구가 직면한 고비용, 장기 과제, 불투명한 연구 루프라는 병목 현상을 해결하기 위해 AI가 스스로 AI를 발전시키는 Asi-Evolve 를 제안한다.

#Review #Agentic AI #Autonomous Scientific Discovery #Neural Architecture Design #Pretraining Data Curation #Reinforcement Learning

2026년 4월 2일

[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking

저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .

#Review #Recommender Systems #Large Language Models #Product Reranking #Preference Memory #Reinforcement Learning

2026년 4월 1일

[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Knowledge Distillation #Exposure Bias #f-Divergence #Sequence-Level Learning #Reinforcement Learning

2026년 4월 1일

[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.

#Review #VectorGym #SVG Generation #Multi-task Learning #Reinforcement Learning #VLM-as-a-Judge

2026년 3월 31일

[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

대규모 비디오 Diffusion 모델은 뛰어난 시각적 품질을 보여주지만, 카메라 궤적의 불안정성이나 기하학적 표류(Geometric Drift)와 같은 3D/4D 일관성 문제에 취약합니다 .

#Review #Video Diffusion Models #Geometric Consistency #Reinforcement Learning #Latent Geometry Model #4D Reconstruction #Group Relative Policy Optimization

2026년 3월 31일

[논문리뷰] Think Anywhere in Code Generation

기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.

#Review #Code Generation #Large Language Models #Reasoning #Reinforcement Learning #On-demand Reasoning #Adaptive Computation

2026년 3월 31일

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

통신 기지국 기반의 시그널링 기록은 광범위한 모빌리티 데이터를 제공하지만, 기지국 수준의 거친 공간 해상도로 인해 정밀한 위치 기반 분석에는 한계가 존재합니다. 기존의 산업적 솔루션들은 핑퐁 효과 제거, 지도 매칭, 경로 추론 등 복잡한 다단계 엔지니어링 파이프라인에 의존하여 Latency 가 높고 자동화가 어렵습니다 .

#Review #Cellular Signaling #Video Generation #GPS Trajectory Reconstruction #Reinforcement Learning #Mobility Analytics #Sig2GPS

2026년 3월 30일

[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.

#Review #GPU Kernel Optimization #Large Language Models #Evolutionary Algorithms #Reinforcement Learning #Triton #MetaX MACA #System Optimization

2026년 3월 30일

[논문리뷰] KAT-Coder-V2 Technical Report

Agentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.

#Review #Agentic Coding #Specialize-then-Unify #KwaiEnv #Reinforcement Learning #On-Policy Distillation #Tree Training

2026년 3월 30일

[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.

#Review #Agentic AI #Image Generation #Multi-hop Search #Reinforcement Learning #Grounded Generation #Multimodal Agent

2026년 3월 30일

[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가

GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.

#Axolotl #GRPO #LLM Training #Performance #Flash Attention #PyTorch #Reinforcement Learning

2026년 3월 28일

[논문리뷰] EVA: Efficient Reinforcement Learning for End-to-End Video Agent

기존 멀티모달 대규모 언어 모델(MLLM) 기반 비디오 이해 시스템은 비디오를 수동적인 인식기로 처리하여, 전체 비디오나 균일하게 샘플링된 프레임을 어떠한 적응적 추론 없이 처리하는 한계가 있습니다.

#Review #Video Agent #Reinforcement Learning #MLLM #Planning-before-Perception #Tool Use #KTO #GRPO

2026년 3월 25일

[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.

#Review #Unified Policy Optimization #Reinforcement Learning #Reasoning-Driven Generation #Interleaved Generation #Flow Matching #Markov Decision Process #Classifier-Free Guidance #Reward Hacking

2026년 3월 24일

[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Multimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.

#Review #Multimodal Chain-of-Thought #Reinforcement Learning #Token-Level Optimization #Visual Similarity #Entropy

2026년 3월 24일

[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.

#Review #Reinforcement Learning #Agentic Post-Training #On-Policy Rollout #Pivot Turn #Functional Equivalence #LLM Fine-Tuning

2026년 3월 23일

[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.

#Review #Vision-language models #High-resolution crops #Tool-calling #Efficiency #Reinforcement Learning #Multi-turn interaction #Data curation #Spatial-on-demand

2026년 3월 23일

[논문리뷰] Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Large Language Models (LLMs)는 Chain-of-Thought prompting과 같은 확장된 추론을 통해 상당한 발전을 이루었지만, 이를 Multi-modal Large Language Models (MLLMs)로 확장하는 것은 여전히 큰 도전 과제입니다.

#Review #Visual Reasoning #Image Understanding #Video Understanding #Multi-Agent System #Reinforcement Learning #Self-Evolving

2026년 3월 23일

[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.

#Review #MLLM #Benchmark #Proactiveness #Reinforcement Learning #Multimodal Reasoning #Human-AI Interaction

2026년 3월 22일

[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Large language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.

#Review #LLM Agents #Subgoals #Reinforcement Learning #Web Navigation #Long-Horizon Planning #Reward Shaping #Curriculum Learning

2026년 3월 22일

[논문리뷰] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Multi-turn LLM Agents는 복잡하고 인터랙티브한 작업을 해결하는 데 점차 중요해지고 있으며, Reinforcement Learning (RL)은 long-horizon behavior를 개선하는 데 핵심적인 역할을 합니다.

#Review #Multi-turn LLM Agents #Reinforcement Learning #Rollout-as-a-Service #Training-Rollout Decoupling #Sandbox Environments #HPC #Token-in/Token-out #Scalability

2026년 3월 19일

[논문리뷰] Memento-Skills: Let Agents Design Agents

현대의 Large Language Models (LLMs) 은 few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다.

#Review #LLM Agents #Continual Learning #Skill Learning #Reinforcement Learning #Memory-based Agents #Agent Design #Read-Write Reflective Learning #Offline RL

2026년 3월 19일

[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.

#Review #Mixed-Precision Quantization #Reinforcement Learning #Post-Training Quantization #Large Language Models #Policy Transfer #Scale Folding #GGUF #On-Device Inference

2026년 3월 18일

[논문리뷰] MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

최근 Large Language Models (LLMs)는 유창한 텍스트 생성 및 광범위한 질문 답변 능력에서 상당한 발전을 이루었지만, scientific analysis, financial reasoning, open-ended research와 같은 많은 real-world 문제들은 단순한 conversational ability를 넘어선다.

#Review #Research Agents #Long-Horizon Reasoning #Verification #Agentic LLM #Multi-Step Problem Solving #Reinforcement Learning

2026년 3월 17일

[논문리뷰] Visual-ERM: Reward Modeling for Visual Equivalence

Vision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.

#Review #Reward Modeling #Vision-to-Code #Reinforcement Learning #Multimodal Generative Model #Visual Equivalence #Fine-grained Feedback #Test-Time Scaling

2026년 3월 15일

[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

온라인 Video Large Language Models (VideoLLMs) 는 스트리밍 시각 입력(streaming visual inputs)을 해석하고 실시간으로 응답하는 데 필수적이며, 특히 Embodied Intelligence와 상호작용형 AI 어시스턴트에서 중요하다.

#Review #Streaming Video Understanding #VideoLLMs #Chain-of-Thought (CoT)#Real-time AI #Reinforcement Learning #Knowledge Graphs #Streaming Thinking #Low Latency

2026년 3월 15일

[논문리뷰] From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

최근 Diffusion/Flow Models은 Visual Content 생성에서 혁신적인 능력을 보여주고 있지만, 생성된 Outputs이 Human Preference 및 Task-specific Constraint에 Align되도록 하는 것은 여전히 중요한 과제입니다.

#Review #Reinforcement Learning #GRPO #Diffusion Models #Flow Models #Preference Alignment #Condition Enhancement #Multi-View Learning

2026년 3월 15일

[논문리뷰] WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

저자들은 instruction-based image editing 분야에서 text-centric image editing 이 중요한 응용 잠재력에도 불구하고 아직 충분히 탐구되지 않은 영역임을 지적합니다.

#Review #Text-centric Image Editing #Diffusion Models #Glyph-Guided Fine-tuning #Reinforcement Learning #Multilingual Benchmark #Dataset Construction

2026년 3월 12일

[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Diffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Reward Modeling #Image Editing #Image Generation #MLLM #Data Curation #Fidelity #Instruction Following

2026년 3월 12일

[논문리뷰] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

대규모 diffusion models 가 비디오 합성 능력을 혁신했지만, multi-subject identity 와 multi-granularity motion 에 대한 정밀한 제어는 여전히 중대한 과제로 남아있습니다.

#Review #Video Diffusion Models #Video Customization #Motion Control #Reinforcement Learning #Multi-Subject #Omni-Motion #Latent Identity #DiT

2026년 3월 12일

[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.

#Review #Agentic Task Synthesis #Diversity Scaling #Tool Use #Generalization #Reinforcement Learning #Supervised Fine-tuning

2026년 3월 12일

[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…

#Review #Reinforcement Learning #Value Models #Advantage Baseline #Sparse Rollouts #Shrinkage Estimation #Sequential Analysis #LLM Fine-tuning #Mathematical Reasoning

2026년 3월 11일

[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Reflection #Intrinsic Feedback #Continuous Adaptation #Memory Retrieval #Agentic AI #GRPO

2026년 3월 11일

[논문리뷰] ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

본 논문은 기존 Mixture-of-LoRAs(MoLoRA) 모델에서 발생하는 '루팅 가중치 붕괴(routing weight collapse)' 문제를 해결하고자 합니다. 이 문제는 루팅 가중치가 특정 LoRA에 집중되어 나머지 LoRA의 활용도가 떨어지는 현상으로, 모델의 표현력을 제한합니다.

#Review #LLM Finetuning #LoRA #Mixture of Experts (MoE)#Reinforcement Learning #Parameter-Efficient Finetuning (PEFT)#Routing #Weight Collapse

2026년 3월 11일

[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool Use #In-Context Learning #Few-Shot Learning #SFT-free #Data Efficiency #Curriculum Learning

2026년 3월 11일

[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents

본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Credit Assignment #Hindsight Credit Assignment #Policy Optimization #Sparse Rewards #Long-Horizon Tasks #Generative Verification

2026년 3월 11일

[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning #Code-Grounded Perception #Image-to-Code Translation #Data Generation #Benchmark #Reinforcement Learning #Matplotlib

2026년 3월 11일

[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization #Large Language Models (LLMs)#Generalization #Robustness #Reasoning Tasks

2026년 3월 11일

[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Natural Language Feedback #Exploration #Group-Level Feedback #Self-Refinement #Sample Efficiency

2026년 3월 11일

[논문리뷰] Reward Prediction with Factorized World States

본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.

#Review #Reward Prediction #World Models #State Representation #Large Language Models #Zero-shot Learning #Reinforcement Learning #Planning #Factorization

2026년 3월 10일

[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Evolution #Reinforcement Learning #Zero-Data #Multi-Agent Systems #Code Generation #Synthetic Data

2026년 3월 10일

[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

논문은 3D 장면 편집 과정에서 발생하는 다중 뷰 일관성(multi-view consistency) 유지의 어려움 과 3D 일관성 편집 쌍 데이터의 극심한 부족 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Editing #Reinforcement Learning #Multi-view Consistency #Diffusion Models #Reward Modeling #3D Gaussian Splatting #FLUX-Kontext #VGGT

2026년 3월 10일

[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

RLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Calibration #Over-confidence #Decoupled Optimization #Verifiable Rewards #Policy Optimization #Expected Calibration Error

2026년 3월 10일

[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Non-Differentiable Rewards #Few-Step Generation #Trajectory Distribution Matching #Surrogate Reward Learning #Text-to-Image

2026년 3월 9일

[논문리뷰] Agentic Critical Training

본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Imitation Learning #Self-Reflection #Action Quality #Out-of-Distribution Generalization #Critical Reasoning #GRPO

2026년 3월 9일

[논문리뷰] KARL: Knowledge Agents via Reinforcement Learning

본 논문은 기업 검색 에이전트가 복잡하고 검증하기 어려운 에이전트성 검색 태스크에서 최첨단 성능 을 달성하도록 강화 학습 을 통해 훈련하는 시스템인 KARL 을 제안합니다.

#Review #Reinforcement Learning #Knowledge Agents #Enterprise Search #Grounded Reasoning #Multi-task Learning #Off-policy RL #Test-time Compute #Agentic Synthesis

2026년 3월 5일

[논문리뷰] Specificity-aware reinforcement learning for fine-grained open-world classification

본 논문은 오픈 월드 환경에서 미세 분류를 수행할 때, 대규모 멀티모달 모델(LMMs) 이 지나치게 일반적인 예측을 내놓는 경향을 해결하고자 합니다. 모델의 정확성 을 저해하지 않으면서 예측의 구체성(specificity) 을 향상시키는 것이 주된 연구 목표입니다.

#Review #Open-World Classification #Fine-Grained Classification #Reinforcement Learning #LMMs #Specificity-Aware Reward #GRPO #LLM-as-a-Judge #Cross-Domain Generalization

2026년 3월 4일

[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.

#Review #LLM Agents #Long-Horizon Tasks #Memory Management #Indexed Experience Memory #Reinforcement Learning #Context Window #Tool Use #MEMEXRL

2026년 3월 4일

[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.

#Review #LLM Memory Retrieval #Proxy Model #Reinforcement Learning #Outcome-Driven Rewards #Long-Term Memory #Curriculum Learning #Model Merging #Inference-Time Scaling

2026년 3월 4일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.

#Review #Reinforcement Learning #Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics #Verifiable Rewards #Engineering Reasoning #Structural Engineering #Group Relative Policy Optimization (GRPO)

2026년 3월 4일

[논문리뷰] Qwen3-Coder-Next Technical Report

본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.

#Review #Coding Agents #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training #Software Engineering #Reinforcement Learning #Code Generation #Tool Usage

2026년 3월 3일

[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.

#Review #Agentic LLM #AI Safety #Multi-Step Tool Use #Reinforcement Learning #Preference-Based Learning #Safety Guardrails #Refusal Mechanism #Structured Reasoning

2026년 3월 3일

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일

[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.

#Review #Generative Reward Models #Chain-of-Thought #Breadth-CoT #Depth-CoT #Reinforcement Learning #Reward Modeling #Mechanism Alignment

2026년 3월 3일

[논문리뷰] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

의료 Vision-Language Model (VLM)에서 강화 학습(RL)이 시각적 추론을 개선하는지, 또는 주로 Supervised Fine-tuning (SFT)을 통해 이미 유도된 행동을 단순히 강화하는지에 대한 불분명함을 해소하는 것이 목표입니다.

#Review #Medical VLMs #Reinforcement Learning #Supervised Fine-tuning #Visual Question Answering #Multi-modality #Reasoning Capacity #MedMNIST

2026년 3월 2일

[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.

#Review #SWE Agents #Reinforcement Learning #Task Collection #Language-Agnostic #Automated Pipeline #Docker #LLM Judges #Reproducibility

2026년 3월 2일

[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs

현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.

#Review #LLMs #VLMs #Reasoning #Self-Correction #Reinforcement Learning #Confidence Estimation #Iterative Refinement #Think-Answer

2026년 3월 2일

[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Reward Sparsity #Fine-tuning #Large Language Models #Reference-Guided Learning #DAPO

2026년 3월 2일

[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection

본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Data Selection #Mutual Information #Epistemic Uncertainty #LLMs #RLVR #Training Efficiency

2026년 3월 2일

[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.

#Review #Tool-Use Agents #Multi-turn Interaction #Data Synthesis #Constraint-Guided Verification #Large Language Models #Supervised Fine-tuning #Reinforcement Learning

2026년 3월 2일

[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.

#Review #LLM #Social Chat #Engagement Optimization #Steerability #Reinforcement Learning #Reward Modeling #A/B Testing #Iterative Development

2026년 3월 2일

[논문리뷰] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

본 논문은 낮은 컴퓨팅 예산 으로 장시간 비디오를 효율적으로 이해하는 과제를 해결하는 것을 목표로 합니다.

#Review #Long Video Understanding #MLLM Agent #Active Learning #Reinforcement Learning #Chain-of-Thought #Video Navigation #Computational Efficiency

2026년 3월 1일

[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling

본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.

#Review #Image Generation #Reward Modeling #Spatial Understanding #Reinforcement Learning #Visual Language Models #Text-to-Image #Preference Learning

2026년 3월 1일

[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.

#Review #Agentic AI #Long-Horizon Search #Parallel Execution #Data Synthesis #Reinforcement Learning #Generalization #Efficiency #LLM Agent

2026년 2월 26일

[논문리뷰] MediX-R1: Open Ended Medical Reinforcement Learning

본 논문은 의료 멀티모달 대규모 언어 모델(MLLM)이 다지선다형 질문을 넘어 임상적으로 근거한 자유 형식 답변 을 생성하도록 하는 오픈엔드 의료 강화 학습(RL) 프레임워크인 MediX-R1 을 제안합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Medical AI #Composite Reward #LLM-as-a-Judge #Open-ended Generation #Medical Imaging

2026년 2월 26일

[논문리뷰] From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

본 논문은 기존의 LMM(Large Multimodal Models) 자가 학습 프레임워크가 겪는 해석 가능한 진단 부족과 시각적 다양성 부족이라는 근본적인 한계를 해결하고자 합니다.

#Review #Large Multimodal Models #Iterative Training #Diagnostic-Driven Learning #Reinforcement Learning #Multimodal Reasoning #Data Generation #Agent Systems

2026년 2월 26일

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization

본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Efficient Reasoning #Large Language Models #Reinforcement Learning #Reward Shaping #Chain-of-Thought #RL Optimization #Length Adaptation

2026년 2월 24일

[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.

#Review #Visual Text Rendering #Reinforcement Learning #Structural Anomaly Perception #Reward Modeling #Text-to-Image Generation #OCR #MLLMs #Data Augmentation

2026년 2월 24일

[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL

본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.

#Review #Agentic AI #Multimodal Models #Reinforcement Learning #Dynamic Tooling #Interaction Stability #Video Reasoning #Visual Language Models #Rollout Optimization

2026년 2월 24일

[논문리뷰] SkillOrchestra: Learning to Route Agents via Skill Transfer

논문은 복합 AI 시스템에서 효과적인 오케스트레이션 문제를 해결하고자 합니다.

#Review #Agent Orchestration #Skill Transfer #LLM Routing #Performance-Cost Trade-off #Routing Collapse #Multi-turn Dialogue #Skill Handbook #Reinforcement Learning

2026년 2월 23일

[논문리뷰] AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

유전자 치료 벡터로 사용되는 아데노-관련 바이러스(AAV)는 조직 특이성, 면역 회피, 생산 효율성에서 한계를 가지며, 특히 신장 표적화는 난제로 남아있습니다.

#Review #Generative AI #Protein Language Model #Reinforcement Learning #AAV Capsid Engineering #Multi-objective Optimization #Renal Targeting #AlphaFold3 #ESM-2

2026년 2월 23일

[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

LLM(Large Language Models)을 위한 오프-정책(off-policy) 강화 학습 훈련 시 발생하는 불안정성 문제, 즉 정책 노후화(policy staleness), 비동기 훈련, 훈련-추론 불일치로 인한 높은 중요도 샘플링(IS) 분산을 해결하는 것을 목표로 합니다.

#Review #Off-Policy RL #LLM Training #Importance Sampling #Variance Reduction #Variational Optimization #Policy Gradient #Sequence-Level Optimization #Reinforcement Learning

2026년 2월 22일

[논문리뷰] Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

본 논문은 강화 학습(DRL)을 통해 학습된 제어 정책이 생성하는 비현실적인 고주파수 제어 신호 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Motion Control #Robotics #Character Animation #Linear Policies #Action Jacobian Penalty #Policy Regularization #Sim-to-Real

2026년 2월 22일

[논문리뷰] EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

본 논문은 모바일 로봇이 오직 자기 중심적(egocentric) 시각 관측 만을 사용하여 복잡한 환경에서 여러 객체를 장기적으로 재배열 하는 문제를 해결하는 것을 목표로 합니다.

#Review #Egocentric Perception #Multi-Object Rearrangement #Mobile Robotics #Reinforcement Learning #Teacher-Student Distillation #Non-Prehensile Manipulation #Sim-to-Real Transfer #Object-Centric Representation

2026년 2월 22일

[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?

본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models #Chain of Thought #Efficient Inference #Self-Aware Sampling #Reinforcement Learning #Reasoning Termination #Mathematical Benchmarks

2026년 2월 22일

[논문리뷰] World Models for Policy Refinement in StarCraft II

본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.

#Review #StarCraft II #World Model #Policy Refinement #Large Language Models #Reinforcement Learning #Partial Observability #Structured Text Representation #Game AI

2026년 2월 19일

[논문리뷰] Computer-Using World Model

본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #World Model #GUI Agents #Desktop Automation #Reinforcement Learning #Large Language Models #Visual State Realization #Textual State Transition

2026년 2월 19일

[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상

Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.

#Ray #RLlib #Python #Performance #Reinforcement Learning #Optimization

2026년 2월 19일

[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Training Stability #Policy Optimization #Spurious Tokens #Entropy Regularization #Gradient Modulation

2026년 2월 17일

[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering

본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.

#Review #Foundation Model #Agentic AI #Reinforcement Learning #Sparse Attention #Software Engineering #Long-Context Models #GPU Optimization

2026년 2월 17일

[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

본 논문은 대규모 언어 모델(LLM)이 긴 탐색 경로와 많은 상호작용이 필요한 심층 검색 태스크를 수행할 때 겪는 어려움, 특히 고품질 훈련 데이터 부족과 높은 상호작용 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Search #Multimodal LLM #Task Synthesis #Agentic Mid-Training #Reinforcement Learning #Tool-Augmented Agents #Web Search

2026년 2월 16일

[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.

#Review #Small Language Model #Generalist AI #Reasoning #Code Generation #Agentic Behavior #Reinforcement Learning #Tool Use #Deep Search

2026년 2월 16일

[논문리뷰] MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

인간 모션 이해 및 생성 분야에서 제한적인 추론 능력 과 테스트 시간 계획의 한계 를 극복하는 것을 목표로 합니다. 이를 위해, 모션 이해와 생성을 통합하는 단일 멀티모달 모션 모델 을 제안하여, 논리적 추론과 지각적 사실성을 동시에 개선하고자 합니다.

#Review #Motion Understanding #Motion Generation #Reinforcement Learning #Chain-of-Motion #Multimodal LLM #Human Motion Synthesis #Text-to-Motion

2026년 2월 16일

[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion Models #Reasoning #Reinforcement Learning #Supervised Finetuning #Visual Question Answering #Image Editing #Object Grounding #Policy Gradient

2026년 2월 16일

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] Experiential Reinforcement Learning

언어 모델(LMs)이 희소하고 지연된 환경 피드백으로부터 학습하는 과정에서 발생하는 비효율성과 불안정성을 해결하는 것이 주요 목표입니다.

#Review #Reinforcement Learning #Language Models #Self-Reflection #Experiential Learning #Policy Optimization #Distillation #Agentic Reasoning

2026년 2월 16일

[논문리뷰] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

논문은 멀티모달 대규모 언어 모델(MLLMs)이 미세한 시각 정보를 인식하는 데 겪는 어려움, 즉 전역적 컨텍스트에 의해 중요한 세부 정보가 가려지는 문제를 해결하고자 합니다.

#Review #Multimodal Perception #Fine-Grained Analysis #Knowledge Distillation #Region-to-Image #MLLMs #ZoomBench #Reinforcement Learning

2026년 2월 15일

[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.

#Review #Reinforcement Learning #Visual Reasoning #Vision-Language Models #Causal Probing #Model Merging #Parameter Analysis #Transformer Layers #Functional Localization

2026년 2월 15일

[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Sim-to-Real #Co-training #VLA Models #Robotic Manipulation #Supervised Fine-tuning #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

본 논문은 실세계 임상 애플리케이션에서 일반 목적의 의료 이해 및 추론을 발전시키기 위한 MedXIAOHE 라는 의료 비전-언어 파운데이션 모델을 제안합니다.

#Review #Medical LLMs #Multimodal Foundation Models #Continual Pre-training #Entity-Aware Learning #Reinforcement Learning #Medical Diagnosis #Instruction Following #Unified Benchmarking

2026년 2월 15일

[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.

#Review #Geolocation #Reinforcement Learning #Vision-Language Models #Chain-of-Thought #Geospatial AI #Dataset #Reward Function

2026년 2월 15일

[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Maximum Entropy RL #Kinetic Energy Regularization #Schrödinger Bridge #Generative Policies #Flow Matching #Actor-Critic

2026년 2월 15일

[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLM #CUDA Kernel Generation #Reinforcement Learning #Code Generation #High-Performance Computing #Bi-phase Curated RL #CuKe Dataset

2026년 2월 15일

[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선

Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.

#Ray #RLlib #Performance #Python #Connector #Reinforcement Learning

2026년 2월 13일

[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Group Relative Policy Optimization #Advantage Estimation #Exploration-Exploitation #Curriculum Learning #Multi-modal LLMs

2026년 2월 12일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.

#Review #LLM #Scientific Reasoning #Co-evolution #Reinforcement Learning #Sparse Supervision #Geometric Consensus #Self-Play #Verifier

2026년 2월 12일

[논문리뷰] RISE: Self-Improving Robot Policy with Compositional World Model

본 논문은 VLA(Vision-Language-Action) 모델 이 접촉이 많고 역동적인 로봇 조작 작업에서 여전히 취약하며, 물리적 환경에서의 온-정책(on-policy) 강화 학습이 하드웨어 비용, 느린 상호작용, 수동 리셋 등의 문제로 인해 확장이 어렵다는 한계를 해결하고자 합니다.

#Review #Robot Learning #Reinforcement Learning #World Models #Compositional Models #Robotic Manipulation #Self-Improving #Vision-Language-Action (VLA)

2026년 2월 12일

[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Metaphor Understanding #Visual Reasoning #Reinforcement Learning #MLLMs #TFQ-GRPO #End-to-End Learning #Cognitive AI

2026년 2월 12일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

본 논문은 현재 VLA(Vision-Language-Action) 모델이 겪는 제한된 장면 이해 능력과 약한 미래 예측 능력으로 인한 장기적인 액션 계획의 한계를 해결하는 것을 목표로 합니다.

#Review #VLA Models #World Models #Reinforcement Learning #Robotic Manipulation #Long-Horizon Control #Human-in-the-Loop #Continual Learning

2026년 2월 12일

[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.

#Review #Multimodal Model #Image Generation #Image Editing #Diffusion Models #VLM-DiT Architecture #Stacked Channel Bridging #Reinforcement Learning #Lightweight Models

2026년 2월 12일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.

#Review #Long-Context Reasoning #Large Language Models (LLMs)#Recurrent Memory #Gated Mechanisms #Reinforcement Learning #Memory Efficiency #Early Exit

2026년 2월 11일

[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.

#Review #Video Captioning #Multi-Scene Videos #Time-Aware #Structural Captions #Audio-Visual Understanding #Large Language Models #Reinforcement Learning #OmniDCBench

2026년 2월 11일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Meta-Learning #Error Attribution #Knowledge Internalization #Self-Distillation #Verifiable Rewards

2026년 2월 11일

[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.

#Review #LLM Adaptation #Reinforcement Learning #Data Curation #Data Pipelines #Data Recipes #Data Verifier #Data-centric AI

2026년 2월 11일

[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

GRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLMs #Credit Assignment #Multi-Objective Optimization #Advantage Estimation #Calibration #Structured Generation #Group Relative Policy Optimization

2026년 2월 11일

[논문리뷰] UI-Venus-1.5 Technical Report

본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.

#Review #GUI Agent #MLLM #Reinforcement Learning #Model Merging #GUI Grounding #Task Navigation #Online-RL #Offline-RL

2026년 2월 10일

[논문리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

본 연구는 GUI 자동화의 핵심 과제인 GUI 플래닝의 확장성 문제를 해결하는 것을 목표로 합니다. 기존 방식의 스텝 중복과 낮은 궤적 다양성, 그리고 인간 주석 의존성으로 인한 데이터 부족 문제를 극복하고, 고품질의 대규모 GUI 궤적 데이터를 효율적으로 합성하는 방법론을 제시합니다.

#Review #GUI Automation #Computer-Use Agents #Trajectory Synthesis #Tree-Structured Exploration #Multi-Agent Framework #Reinforcement Learning #DPO #Data Efficiency

2026년 2월 10일

[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

LLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다.

#Review #LLM Agents #Reinforcement Learning #Skill Discovery #Recursive Evolution #Experience Distillation #Hierarchical Skills #Context Efficiency #Task Planning

2026년 2월 10일

[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.

#Review #Environment Synthesis #Tool-Use Agents #Reinforcement Learning #Generalization #Procedural Generation #LLM Agents #Interactive Environments #Data Scaling

2026년 2월 10일

[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

본 논문은 기존 텍스트 기반 모델의 한계를 극복하고, 시각적 정보와 과학적 추론을 통합하여 물리 올림피아드 수준의 복잡한 문제 를 해결할 수 있는 개방형 Vision-Language Model (VLM) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Curriculum Learning #Physics Olympiads #Scientific Reasoning #Agentic AI #Multimodal AI #Physics

2026년 2월 10일

[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.

#Review #Long Context Reasoning #Memory Compression #Reinforcement Learning #Large Language Models (LLMs)#Inference Efficiency #Dynamic Recall #KV-Cache #Multi-hop Reasoning

2026년 2월 10일

[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.

#Review #Multi-Agent LLM #Reinforcement Learning #Training Stability #GRPO #Agent-wise Normalization #Gradient Explosion #LLM Orchestration

2026년 2월 10일

[논문리뷰] Code2World: A GUI World Model via Renderable Code Generation

본 논문은 기존 텍스트 및 픽셀 기반 GUI 월드 모델이 가지는 시각적 충실도와 세밀한 구조적 제어 능력 부족 문제를 해결하고자 합니다. 사용자 인터페이스(UI)의 다음 상태를 렌더링 가능한 코드 생성 을 통해 예측하여, 높은 시각적 충실도와 정교한 구조적 제어가 가능한 GUI 월드 모델 을 구축하는 것을 목표로 합니다.

#Review #GUI World Model #Renderable Code Generation #Vision-Language Model #Reinforcement Learning #HTML Synthesis #UI Prediction #GUI Agents

2026년 2월 10일

[논문리뷰] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 훈련을 위한 다양하고 신뢰할 수 있는 환경의 부족 문제 를 해결하고자 합니다.

#Review #Agentic AI #Reinforcement Learning #Synthetic Environments #Tool-Use Agents #World Model #Database-Backed Simulation #LLM-powered Agents

2026년 2월 10일

[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.

#Review #Reinforcement Learning #World Models #Video Generation #Autoregressive Generation #Long-Horizon #Post-training #Diffusion Models #Reward Functions

2026년 2월 9일

[논문리뷰] Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

대규모 사전 훈련(large-scale pretraining)과 효율적인 미세 조정(efficient finetuning) 사이의 간극을 줄여 휴머노이드 로봇 제어의 샘플 효율성과 안전성을 향상 시키는 것을 목표로 합니다.

#Review #Humanoid Control #Reinforcement Learning #SAC #Model-Based RL #Pretraining #Finetuning #Physics-Informed World Model #Sim-to-Real Transfer

2026년 2월 9일

[논문리뷰] Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

이 논문은 LLM 에이전트의 기존 오프라인, 쿼리-불가지론적 메모리 구성 방식이 비효율적이며 쿼리-중요 정보를 놓칠 수 있다는 문제를 제기합니다. 핵심 목표는 런타임 메모리 추출을 위해 명시적이고 제어 가능한 성능-비용 트레이드오프 를 가능하게 하는 프레임워크를 개발하는 것입니다.

#Review #LLM Agents #Runtime Memory #Budget-Tier Routing #Reinforcement Learning #Performance-Cost Trade-off #Modular Memory Pipeline #Query-Aware Memory #Resource Management

2026년 2월 9일

[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.

#Review #Chemical Reasoning #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space #Molecular Optimization #Inference Efficiency #Reinforcement Learning #Chemical AI

2026년 2월 9일

[논문리뷰] LLaDA2.1: Speeding Up Text Diffusion via Token Editing

본 연구는 확산 언어 모델(dLLMs)에서 디코딩 속도와 생성 품질 간의 고질적인 트레이드오프를 극복하고, 병렬 디코딩 시 발생하는 토큰 수준의 불일치를 해결하여 효율적이면서도 고품질의 텍스트 생성을 달성하는 것을 목표로 합니다.

#Review #Text Diffusion #Token Editing #Inference Acceleration #Mask-to-Token #Token-to-Token #Reinforcement Learning #Speedy Mode #Quality Mode

2026년 2월 9일

[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching #Text-to-Image Generation #Sparse Rewards #Credit Assignment #Turning Points #Group Relative Policy Optimization

2026년 2월 9일

[논문리뷰] Self-Improving World Modelling with Latent Actions

본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.

#Review #World Modeling #Latent Actions #Self-Improvement #Reinforcement Learning #LLMs #VLMs #Inverse Dynamics Model #Forward World Modelling

2026년 2월 8일

[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.

#Review #Multilingual Reasoning #Reinforcement Learning #Machine Translation #Question Understanding #Self-Improvement #Language Models #Cross-Lingual Alignment

2026년 2월 8일

[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.

#Review #Multi-Turn Jailbreaks #LLM Safety #Red Teaming #Reinforcement Learning #Intent Drift #Response-Agnostic Generation #Self-Tuning

2026년 2월 8일

[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Iterative Reasoning #Reinforcement Learning #Large Language Models #Context Management #Summarization #Chain-of-Thought #Efficiency #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

RLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Reward Models #Diversity Preservation #Focal Loss #Group Sampling #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.

#Review #Medical LLM #Clinical Decision Support #Reinforcement Learning #Hallucination Suppression #Multi-task Learning #Speculative Decoding #Quantization #Clinical Inquiry

2026년 2월 8일

[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Exploration-Exploitation #Group Relative Policy Optimization #Entropy Collapse #Generative Models #Confidence-Aware Rewards

2026년 2월 8일

[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Agentic AI #Large Language Models (LLMs)#Visual Tools #Chain-of-Thought (CoT)#Reinforcement Learning #Curriculum Learning #Evidence-Driven Reasoning

2026년 2월 5일

[논문리뷰] Steering LLMs via Scalable Interactive Oversight

본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.

#Review #Scalable Oversight #Interactive AI #Large Language Models #Human-AI Collaboration #Product Requirement Documents #Reinforcement Learning #Structured Interaction #Vibe Coding

2026년 2월 5일

[논문리뷰] Reinforcement World Model Learning for LLM-based Agents

대규모 언어 모델(LLM) 기반 에이전트가 현실 환경에서 행동 결과(action consequences)를 예측하고 환경 역학에 적응하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM-based Agents #World Model Learning #Reinforcement Learning #Self-Supervised #Environment Dynamics #Sim-to-Real Reward #Textual States

2026년 2월 5일

[논문리뷰] Reinforced Attention Learning

본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Attention Mechanisms #Policy Gradient #Knowledge Distillation #Visual Grounding #Post-training

2026년 2월 5일

[논문리뷰] ProAct: Agentic Lookahead in Interactive Environments

ProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.

#Review #Agentic AI #Large Language Models #Reinforcement Learning #Lookahead Reasoning #Monte-Carlo Tree Search #Supervised Fine-Tuning #Value Estimation #Simulation Drift

2026년 2월 5일

[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Multi-Task Learning #Reinforcement Learning #Policy Optimization #GRPO #Task Reweighting #Robustness #Reasoning Benchmarks

2026년 2월 5일

[논문리뷰] InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

논문은 물리 기반 휴머노이드 로봇이 고수준의 목표만으로도 다양한 객체와 상호작용하는 복잡한 로코-조작(loco-manipulation) 행동을 생성하고 일반화하는 데 있어 기존 방법론의 확장성 및 견고성 한계를 해결하고자 합니다.

#Review #Human-Object Interaction #Physics-Based Simulation #Generative Control #Reinforcement Learning #Imitation Learning #Variational Policy #Failure Recovery #Loco-Manipulation

2026년 2월 5일

[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Kernel Generation #Triton #GPU Optimization #LLMs #Reward Hacking #Multi-turn Interaction #Code Generation

2026년 2월 5일

[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Sparse Rewards #Self-Hinting #Policy Optimization #Adaptive Curriculum #On-Policy Training

2026년 2월 4일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Scientific QA #Information Retrieval #Verifiable Rewards #Biomedical Domain #Search Agents #Dataset Generation

2026년 2월 4일

[논문리뷰] ERNIE 5.0 Technical Report

ERNIE 5.0은 텍스트, 이미지, 비디오, 오디오에 걸쳐 통합된 멀티모달 이해 및 생성 을 위한 본질적으로 자기회귀(autoregressive) 기반 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Autoregressive #Mixture-of-Experts #Elastic Training #Reinforcement Learning #Unified Architecture #Sparse MoE #Efficient Deployment

2026년 2월 4일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Context Management #Thought Omission #Observation Omission #Reinforcement Learning #Adaptive Policy

2026년 2월 4일

[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling

본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.

#Review #Wide Research #Multi-Agent Systems #Reinforcement Learning #Information Seeking #Benchmarking #LLM Agents #Knowledge Graphs

2026년 2월 3일

[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments

소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.

#Review #Software Engineering Agents #LLM #Docker-Free #Execution Simulation #Reinforcement Learning #Supervised Fine-tuning #World Model

2026년 2월 3일

[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Language Server Protocol #SWE-bench #Code Navigation #LLM

2026년 2월 3일

[논문리뷰] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

대규모 언어 모델(LLM) 추론을 위한 RLVR (Reinforcement Learning with Verifiable Rewards) 의 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Instruction Purification #Interference Tokens #Sample Efficiency #Policy Optimization #Verifiable Rewards

2026년 2월 3일

[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.

#Review #DeepResearch #Rubric Generation #Human Preferences #Reinforcement Learning #Multi-agent Systems #LLM Evaluation #Reward Modeling

2026년 2월 3일

[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Budget Allocation #Adaptive Learning #Capability-Oriented Value Function #Exploration-Exploitation #Resource Efficiency

2026년 2월 3일

[논문리뷰] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

본 논문은 기존 멀티모달 딥 리서치 MLLM들이 겪는 히트율 문제(검색 엔진의 노이즈와 불안정성) 및 제한된 추론 깊이/검색 폭 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Deep Research #Agentic AI #Tool Use #Visual Question Answering #Reinforcement Learning #Multi-scale Search

2026년 2월 2일

[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model

본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.

#Review #Multimodal Large Language Models #Cognitive Reasoning #Visual Imagery #Latent Representations #Reinforcement Learning #Visual Question Answering #Benchmark

2026년 2월 2일

[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions

본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.

#Review #Software Engineering Environments #LLM Agents #Data Generation #Verifiable Tasks #Multilingual #Reinforcement Learning #Self-Verification #Hacking Detection

2026년 2월 2일

[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.

#Review #Reinforcement Learning #Large Language Models #Agentic AI #Reward Modeling #Environment Adaptation #Closed-loop Optimization #Multimodal Agents

2026년 2월 2일

[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.

#Review #Multimodal AI #Agentic Intelligence #Vision-Language Models #Parallel Agent Orchestration #Reinforcement Learning #Joint Optimization #Visual Reasoning #Software Engineering

2026년 2월 2일

[논문리뷰] Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

본 논문은 로봇 학습의 고질적인 문제인 데이터의 이질성, 낮은 품질, 그리고 행동 모방 (Behavior Cloning, BC)의 장기 태스크 한계를 해결하고자 합니다.

#Review #Vision-Language-Action #Generalist Robots #Staged Training #Reinforcement Learning #Multi-embodiment #Data Quality #Humanoid Robotics #Flow Matching

2026년 2월 2일

[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-Evolving

TTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다.

#Review #Test-Time Training #Self-Evolving LLMs #Curriculum Learning #Reinforcement Learning #Question Synthesis #Mathematical Reasoning #GRPO

2026년 2월 1일

[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Safety Alignment #Self-Distillation #Refusal Steering #Distributional Shift #Chain-of-Thought #Reinforcement Learning

2026년 2월 1일

[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.

#Review #Reinforcement Learning #Reward Shaping #Agent Optimization #GUI Automation #Complex Reasoning #Sample Efficiency #Tiered Rewards

2026년 2월 1일

[논문리뷰] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

본 논문은 대규모 언어 모델(LLMs), 특히 소형 LLMs가 다중 턴 도구 실행에서 발생하는 실행 오류로부터 취약하고, 오류 발생 시 반복적인 무효 호출에 빠지는 문제를 해결하고자 합니다.

#Review #Tool Use #Execution Errors #Error Recovery #Reinforcement Learning #LLMs #Agentic AI #GRPO #FISSION

2026년 2월 1일

[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation

본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.

#Review #Unit Test Generation #Reward Model #Reinforcement Learning #Code Coverage #Mutation Testing #Large Language Models #Run-Free Evaluation #Software Engineering Automation

2026년 2월 1일

[논문리뷰] Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

본 논문은 대규모 언어 모델(LLMs)의 확률적 토큰 예측 과정에서 발생하는 논리적 불일치와 보상 해킹 문제를 해결하고, 이를 통해 자연어 추론의 신뢰성과 정확성을 향상시키는 것을 목표로 합니다.

#Review #LLM Reasoning #Formal Verification #Neuro-Symbolic AI #Reinforcement Learning #Supervised Fine-tuning #Logic Consistency #Mathematical Reasoning

2026년 2월 1일

[논문리뷰] MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

본 논문은 LLM 기반 에이전트의 장기적 추론 시 발생하는 제한된 컨텍스트 창 문제를 해결하는 것을 목표로 합니다. 기존 텍스트 기반 메모리 시스템의 균일한 정보 밀도 문제를 극복하고, 시각적 레이아웃을 통해 적응적 정보 밀도 를 구현하여 적은 예산으로도 효과적인 장기적 추론 능력을 향상시키고자 합니다.

#Review #Long-Horizon Reasoning #Multimodal Memory #Visual Layout #Adaptive Information Density #Reinforcement Learning #Context Window #Large Language Models

2026년 2월 1일

[논문리뷰] Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

논문은 LLM의 CoT(Chain-of-Thought) 추론 이 가진 높은 연산 비용과 이산 토큰 샘플링으로 인한 추론 경로 붕괴 문제를 해결하고자 합니다.

#Review #Latent Reasoning #Chain-of-Thought (CoT)#Large Language Models (LLMs)#Planning #Reinforcement Learning #Mathematical Reasoning #Decoupling #Interpretability

2026년 2월 1일

[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching Models #Dense Reward #Sparse Reward Problem #Preference Alignment #SDE Sampler #GRPO #Text-to-Image Generation

2026년 2월 1일

[논문리뷰] Continual GUI Agents

본 연구는 GUI(Graphical User Interface) 에이전트가 새로운 도메인이나 해상도 변화와 같은 동적인 디지털 환경(데이터 분포의 변화)에서 성능 저하 없이 지속적으로 학습(continual learning) 할 수 있도록 하는 새로운 태스크인 Continual GUI Agents 를 정의합니다.

#Review #Continual Learning #GUI Agents #Reinforcement Learning #Grounding #Domain Adaptation #Resolution Adaptation #Reward Shaping #Human-Computer Interaction

2026년 2월 1일

[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다.

#Review #LLM Agent #Tool Use #Trajectory Synthesis #Reinforcement Learning #Environment Synthesis #Data Generation #Multi-turn Interaction #Automated Training

2026년 2월 1일

[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.

#Review #Sovereign LLMs #Post-Training #Instruction Tuning #Supervised Fine-tuning #On-Policy Distillation #Reinforcement Learning #Knowledge Injection #Thai Language

2026년 1월 29일

[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report

사이버보안 도메인에서 복잡한 다단계 분석을 수행하는 데 특화된 최초의 오픈소스 네이티브 추론 모델 인 Foundation-Sec-8B-Reasoning 을 개발하는 것이 목표입니다.

#Review #Cybersecurity LLM #Reasoning Model #Supervised Fine-Tuning #Reinforcement Learning #Verifiable Rewards #8B Parameters #Open-Source AI

2026년 1월 29일

[논문리뷰] Language-based Trial and Error Falls Behind in the Era of Experience

Large Language Models (LLMs)가 언어 기반이 아닌 새로운 환경(예: 상징적, 공간적 태스크)에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Reinforcement Learning #Exploration Efficiency #Sub-Scale Collaboration #Out-of-Distribution Tasks #Agentic AI #Supervised Fine-Tuning

2026년 1월 29일

[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.

#Review #Agentic AI #Reinforcement Learning #Long-Horizon Tasks #Dynamic Branching #Strategic Exploration #LLM Agents #Sample Efficiency #Policy Optimization

2026년 1월 28일

[논문리뷰] Reinforcement Learning via Self-Distillation

대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.

#Review #GUI Agent #Multimodal AI #MoE #Data Synthesis #Reinforcement Learning #Cross-Platform #Benchmarking

2026년 1월 28일

[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

본 논문은 다양한 과학 도메인에 걸쳐 멀티모달 이해 및 추론 을 발전시키고, 동시에 일반 비전 태스크에서 우수한 성능을 유지하는 과학 멀티모달 대규모 언어 모델(MLLM) 인 Innovator-VL을 제시합니다.

#Review #Multimodal LLM #Scientific AI #Data Efficiency #Reinforcement Learning #Vision-Language Model #Scientific Reasoning #Reproducible AI

2026년 1월 28일

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일

[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Safety Alignment #Reinforcement Learning #Self-Play #Red Teaming #Adversarial Training #Multi-Role Framework #Reward Hacking Mitigation

2026년 1월 27일

[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Tool Orchestration #Visual Reasoning #Reinforcement Learning #Adaptive Learning #Generalization #Tool Use

2026년 1월 27일

[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

컴퓨터 비전 모델이 긴 서사적 일관성을 유지하지 못하고, 대화 같은 고수준의 아이디어와 시네마틱 실행 간의 '의미론적 간극'을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 단순 대화 입력만으로 장기적이고 일관성 있는 시네마틱 비디오를 자동 생성하는 엔드투엔드 프레임워크를 개발하고자 합니다.

#Review #Dialogue-to-Video Generation #Agentic AI #Cinematic Scripting #Long-Horizon Video Synthesis #Visual Coherence #Reinforcement Learning #Multimodal LLM

2026년 1월 26일

[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.

#Review #Deep Search #Agentic Data Generation #LLMs #Execution Feedback #Reinforcement Learning #Question Answering #Synthetic Data

2026년 1월 26일

[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Cross-Domain Generalization #State Information Richness #Planning Complexity #State Augmentation #Step-by-Step Reasoning #Mid-Training

2026년 1월 26일

[논문리뷰] Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

대규모 언어 모델(LLMs)이 겪는 '지식 단절(knowledge cutoff)' 문제와, 지도 미세 조정(SFT)이 새로운 지식 통합 시 추론 능력 향상에 한계가 있으며, 강화 학습(RL)은 온라인 적응에 비실용적으로 비싼 비용 문제를 해결하는 것이 목표입니다.

#Review #LLMs #Continual Adaptation #Reinforcement Learning #Supervised Fine-Tuning #Skill Transfer #Task Arithmetic #Tool Use

2026년 1월 25일

[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning #FP8 Quantization #LLM Training #On-Policy RL #Unified Precision Flow #Training Efficiency #Rollout Acceleration

2026년 1월 25일

[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents

본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Procedural Generation #Terminal Agents #Environment Scaling #Language Models (LLMs)#PPO #Task Generation #Automated Verification

2026년 1월 25일

[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.

#Review #Academic Rebuttal #Theory of Mind #Large Language Models #Strategic Persuasion #Reinforcement Learning #Self-Reward #Dataset Synthesis #Automated Evaluation

2026년 1월 25일

[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Reasoning #Reinforcement Learning #Autoregressive Models #Generation Order #Entropy Degradation #Pass@k #GRPO

2026년 1월 22일

[논문리뷰] SAMTok: Representing Any Mask with Two Words

본 논문은 픽셀 단위의 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 인코더, 전용 디코더, 비호환적인 훈련 목표로 인해 확장성 문제를 겪는 점을 해결하고자 합니다.

#Review #Mask Tokenization #Multimodal LLMs #Pixel-wise Vision-Language #Reinforcement Learning #Segmentation Anything Model #Discrete Representation

2026년 1월 22일

[논문리뷰] Learning to Discover at Test Time

본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.

#Review #Test-Time Training #Reinforcement Learning #Scientific Discovery #LLM Optimization #GPU Kernel Engineering #Algorithm Design #Single-Cell Analysis

2026년 1월 22일

[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence

본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.

#Review #LLM-in-Sandbox #Agentic Intelligence #Code Sandbox #Reinforcement Learning #Generalization #Tool Use #Multi-Modal Generation #Long-Context Processing

2026년 1월 22일

[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.

#Review #Computer Use Agent #Synthetic Experience #Evolutionary Learning #Reinforcement Learning #Direct Preference Optimization #GUI Automation #Scalable Infrastructure #Verifiable Synthesis

2026년 1월 22일

[논문리뷰] FARE: Fast-Slow Agentic Robotic Exploration

본 연구는 자율 로봇 탐사에서 기존 방법론이 장기 정보 활용 및 환경 변화 적응에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Robotic Exploration #LLM #Reinforcement Learning #Fast-Slow Thinking #Hierarchical Planning #Agentic AI #Graph Reasoning

2026년 1월 21일

[논문리뷰] Agentic Reasoning for Large Language Models

본 설문조사 논문은 대규모 언어 모델(LLM)의 추론 능력이 정적인 폐쇄형 환경에서 벗어나 동적이고 개방형 환경에서 계획, 행동, 학습을 통해 지속적으로 상호작용하는 자율 에이전트 로 발전하는 Agentic Reasoning 패러다임을 체계화하는 것을 목표로 합니다.

#Review #Agentic Reasoning #LLM Agents #Self-Evolving AI #Multi-Agent Systems #Planning #Tool Use #Retrieval-Augmented Generation #Reinforcement Learning

2026년 1월 21일

[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.

#Review #Process Reward Models #Tool-using Agents #Benchmark #Reinforcement Learning #Large Language Models #Reward-guided Search #Agent Evaluation #Step-level Rewards

2026년 1월 20일

[논문리뷰] Think3D: Thinking with Space for Spatial Reasoning

기존 Vision-Language Models (VLMs) 이 2D 인식을 넘어선 진정한 3D 공간 추론 능력 과 일관된 공간 표현을 구축하는 데 한계가 있음을 해결하고자 합니다.

#Review #Spatial Reasoning #3D Reconstruction #VLM Agents #Tool Calling #Reinforcement Learning #Novel View Synthesis #Iterative Exploration

2026년 1월 20일

[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR

논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.

#Review #OCR #Vision-Language Model #End-to-End Learning #Multilingual #Reinforcement Learning #Document Understanding #Bounding Box Prediction #Task Arithmetic Merging

2026년 1월 20일

[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning

픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Visual Generalization #Distribution Shift #Benchmarking #JAX #Controlled Environments #PPO

2026년 1월 20일

[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search

본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.

#Review #Agentic Search #Retrieval-Augmented Generation #Retriever Training #Passage Utility Modeling #Iterative Optimization #Reinforcement Learning #Large Language Models

2026년 1월 20일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning #Chain-of-Thought #Reinforcement Learning #Stochastic Reasoning #Continuous Representation #Token Efficiency

2026년 1월 19일

[논문리뷰] Reasoning Models Generate Societies of Thought

본 논문은 대규모 언어 모델(LLM)의 정교한 추론 능력 이면에 있는 메커니즘을 규명하고, 이러한 능력이 단순히 계산량 증가가 아닌, 복잡한 다중 에이전트 상호작용 인 '생각의 사회(society of thought)'를 내재적으로 시뮬레이션함으로써 발현된다는 가설을 제시합니다.

#Review #Reasoning Models #Large Language Models (LLMs)#Multi-Agent Systems #Society of Thought #Mechanistic Interpretability #Reinforcement Learning #Cognitive Diversity #Conversational AI

2026년 1월 18일

[논문리뷰] Urban Socio-Semantic Segmentation with Vision-Language Reasoning

본 논문은 위성 이미지에서 건물이나 수역과 같은 물리적 속성이 아닌, 학교나 공원과 같은 사회적으로 정의된 도시의 의미론적 개체 를 정확하게 분할하는 새로운 도전 과제인 도시 사회-의미론적 분할(Urban Socio-Semantic Segmentation)을 해결하는 것을 목표로 합니다.

#Review #Urban Segmentation #Socio-Semantic #Vision-Language Models (VLMs)#Reinforcement Learning #Geospatial Data #Multi-modal Reasoning #SAM

2026년 1월 15일

[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Tool Use Safety #Guardrail #Step-level Safety Detection #Prompt Injection #Reinforcement Learning #Feedback Framework

2026년 1월 15일

[논문리뷰] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

본 논문은 기존 텍스트-이미지(T2I) 확산 모델들이 대규모 언어 모델(LLM) 기반 텍스트 인코더 를 단순히 특징 추출기로 사용하여 추론 능력을 충분히 활용하지 못하는 한계를 해결하고자 합니다.

#Review #Text-to-Image #Diffusion Models #LLM Encoders #Reasoning-Aware AI #Reinforcement Learning #Dual-GRPO #Prompt Rewriting

2026년 1월 15일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

본 논문은 Tool-Integrated Reasoning (TIR) 에서 기존 강화 학습 방법론이 획일적인 보상 할당 으로 인해 비효율적인 도구 사용 최적화를 초래하는 문제를 해결하고자 합니다.

#Review #Tool-Integrated Reasoning #LLMs #Reinforcement Learning #Fine-Grained Supervision #Bipartite Matching #Credit Assignment #Advantage Estimation

2026년 1월 15일

[논문리뷰] LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 실세계 명령, 특히 순차적 의존성이나 조건부 분기와 같은 논리적 구조 를 포함하는 명령을 따르는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Instruction Following #Reinforcement Learning #Logical Structures #LLMs #Reward Modeling #Dataset Construction #Attention Mechanism

2026년 1월 15일

[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #Test-Time Adaptation #Large Language Models #Collaborative Reasoning #Credit Assignment #Textual Experience #Distribution Shift Robustness

2026년 1월 15일

[논문리뷰] TranslateGemma Technical Report

본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.

#Review #Machine Translation #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Gemma 3 #Multimodal AI #Synthetic Data

2026년 1월 14일

[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

본 논문은 일반적인 Large Vision-Language Models (LVLMs) 이 피부과 진단에서 겪는 '확산 주의(diffuse attention)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 미묘한 병리학적 병변을 배경 노이즈로부터 분리하지 못해 정보 전달 효율성이 저하되는 현상입니다.

#Review #Dermatological Diagnosis #Multimodal LLM #Reinforcement Learning #Dynamic Visual Encoding #Information Transmission #Clinically Grounded Evaluation

2026년 1월 14일

[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.

#Review #LLM Agents #World Models #Adaptive Planning #Lookahead #Reinforcement Learning #POMDP #Task Planning #Reasoning

2026년 1월 14일

[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web Agents

기존 웹 에이전트들이 경험을 수동적으로 전역 컨텍스트로 주입하여 동적으로 변하는 환경에서 비효율적인 탐색과 신뢰할 수 없는 응답을 생성하는 문제를 해결하고자 합니다.

#Review #Web Agents #Experience Seeking #Self-Triggered #LLM Reasoning #Entropy #Proactive Guidance #Reinforcement Learning #Foundation Models

2026년 1월 14일

[논문리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

기존 Vision-Language-Action (VLA) 모델이 복잡하고 장기적인 내비게이션 태스크에서 부족했던 명시적 추론 능력 과 영구적인 기억 구조 의 부재를 해결하는 것을 목표로 합니다.

#Review #Embodied Navigation #VLA Model #Adaptive Reasoning #Chain-of-Thought (CoT)#Linguistic Memory #Reinforcement Learning #Sim-to-Real Transfer #Multi-task Learning

2026년 1월 13일

[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.

#Review #LLM Agents #Calibration #Tool Use #Reinforcement Learning #Miscalibration #Overconfidence #Trustworthy AI

2026년 1월 13일

[논문리뷰] Solar Open Technical Report

Solar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Korean LLM #Synthetic Data Generation #Curriculum Learning #Reinforcement Learning #Tokenizer Optimization #Multilingual AI

2026년 1월 13일

[논문리뷰] End-to-End Video Character Replacement without Structural Guidance

본 논문은 기존 비디오 캐릭터 교체 방법론이 페어링된 데이터 부족과 per-frame segmentation masks 및 explicit structural guidance (e.g., skeleton, depth) 에 의존하여 일반화 및 시각적 일관성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Video Character Replacement #Diffusion Models #In-Context Learning #Reinforcement Learning #Structural Guidance #Video Editing #Data Generation Pipeline

2026년 1월 13일

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일

[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Visualization #Reinforcement Learning #Multi-Objective Optimization #GRPO #Multimodal Feedback #LLMs #Code Generation

2026년 1월 13일

[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.

#Review #Travel Planning #LLM Agents #Reinforcement Learning #Multi-path Reasoning #Constraint Satisfaction #POI Optimization #Chain-of-Thought

2026년 1월 12일

[논문리뷰] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

본 논문은 현대 언어 모델(LLM)이 고정된 컨텍스트 창 내에서 순차적 추론에 의존하여 테스트 시간 연산(Test-Time Compute, TTC) 을 대규모로 확장할 수 없다는 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #PaCoRe #Test-Time Compute Scaling #LLMs #Parallel Reasoning #Reinforcement Learning #Reasoning Synthesis #Message Passing #Mathematical Reasoning

2026년 1월 12일

[논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning

기존 대규모 언어 모델(LLM) 에이전트용 강화 학습(RL) 시스템의 한계를 극복하고, 에이전트 환경 및 상호작용 프로토콜의 재사용성 부족, 그리고 에이전트 프로그래밍과 실행 간의 분리 부재 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Agents #Multi-Agent Systems #System Architecture #Separation of Concerns #RLaaS #Distributed Training #Agent Protocol Coordination

2026년 1월 12일

[논문리뷰] MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

본 논문은 인터랙티브하고 자율적인 AI 에이전트의 대규모 훈련 및 평가를 위한 기존 인프라의 한계를 해결하고자 합니다.

#Review #Agentic AI #Distributed Orchestration #Scalability #Cloud-Native #Reinforcement Learning #Software Engineering Agents #Resource Management

2026년 1월 12일

[논문리뷰] Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

기존 대규모 시각-언어 모델(LVLM) 기반 지리 위치 특정(Geolocalization) 방법론이 지도 활용이라는 인간의 일반적인 전략을 간과하고 내부 추론에만 의존하는 한계를 극복하고자 합니다.

#Review #Geolocalization #LVLM #Map-Augmented Agent #Reinforcement Learning #Parallel Test-Time Scaling #Tool Use #MAPBench

2026년 1월 11일

[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents

대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.

#Review #Search Agent #Information Retrieval #Large Language Models #Process Reward #Query Refinement #Reinforcement Learning #Curriculum Learning

2026년 1월 11일

[논문리뷰] RelayLLM: Efficient Reasoning via Collaborative Decoding

본 논문은 복잡한 추론 작업에서 대규모 언어 모델(LLM) 의 높은 연산 비용과 지연 시간 문제를 해결하면서, 소규모 언어 모델(SLM) 의 제한된 추론 능력을 보완하는 효율적인 방법을 제안합니다.

#Review #LLM #SLM #Collaborative Decoding #Token-level Intervention #Reinforcement Learning #GRPO #Efficient Reasoning #Resource Efficiency

2026년 1월 8일

[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.

#Review #In-Context Image Generation #Image Editing #Multimodal Models #Chain-of-Thought #Structured Reasoning #Reinforcement Learning #Alignment #Diffusion Models

2026년 1월 8일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.

#Review #Molecular Dynamics #LAMMPS #Code Generation #Knowledge Q&A #Large Language Models #Reinforcement Learning #Multi-agent System #Domain Adaptation

2026년 1월 7일

[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

기존 GRPO(Group Relative Policy Optimization) 기반의 플로우 모델들이 여러 디노이징 타임스텝에 걸쳐 정책을 최적화할 때 발생하는 희소하고 모호한 보상 신호 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Flow Models #Entropy-aware Sampling #Group Relative Policy Optimization #SDE #Human Preference Alignment #Image Generation

2026년 1월 7일

[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Online Post-training #Scalable Robot Learning #Distributed Systems #Multi-task Learning #Imitation Learning #Reinforcement Learning

2026년 1월 6일

[논문리뷰] MiMo-V2-Flash Technical Report

본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sliding Window Attention #Multi-Token Prediction #Multi-Teacher On-Policy Distillation #Reinforcement Learning #Long-Context Modeling #Agentic AI

2026년 1월 6일

[논문리뷰] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

기존 Multimodal Large Language Models (MLLMs) 이 시각적 수학 문제 해결에서 낮은 정확도와 일관성 없는 추론을 보이는 문제를 해결하는 것이 목표입니다. 특히, 시각적 정보 추출 후 이 정보가 추론 과정에 충실히 통합되고 활용되는지를 보장하지 못하는 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Mathematical Problem Solving #Knowledge Internalization #Reinforcement Learning #Cognitive-Inspired AI #Perception-Reasoning Alignment

2026년 1월 6일

[논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

Visual Autoregressive (VAR) 모델은 이질적인 입력 구조와 생성 단계별로 크게 변동하는 쿼리 토큰 수로 인해 비동기 정책 충돌이 발생하여, 특히 RL 환경에서 불안정한 학습과 최적화되지 않은 정렬을 초래합니다.

#Review #Visual Autoregressive Models #Reinforcement Learning #Policy Conflicts #GRPO #Text-to-Image Generation #Credit Assignment #Multi-scale Generation

2026년 1월 5일

[논문리뷰] Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

본 논문은 기존 텍스트 기반 이미지 편집 모델이 객체 수준의 기하학적 변환(이동, 회전, 크기 조절)에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Text-Guided Image Editing #Object-Level Transformation #Geometric Transformation #Diffusion Models #GRPO #Scene Editing #Spatially Grounded Rewards

2026년 1월 5일

[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

NextFlow는 단일 decoder-only autoregressive transformer 를 사용하여 멀티모달 이해 및 생성 능력을 통합하는 것을 목표로 합니다.

#Review #Multimodal AI #Decoder-only Transformer #Next-scale Prediction #Image Generation #Image Editing #Reinforcement Learning #Unified Modeling #TokenFlow

2026년 1월 5일

[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward Hacking

Reinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.

#Review #Diffusion Models #Reinforcement Learning #Reward Hacking #KL Regularization #Adaptive Regularization #Diversity Optimization #Text-to-Image Generation

2026년 1월 5일

[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.

#Review #Video Face Swapping #Diffusion Transformer #Identity Preservation #Temporal Consistency #Modality-Aware Conditioning #Reinforcement Learning #Data Synthesis

2026년 1월 5일

[논문리뷰] Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

본 논문은 기존 LLM 에이전트 프레임워크가 겪는 높은 구성 비용 과 정적 기능 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Automated Agent Generation #Reinforcement Learning #Hybrid Policy Optimization #Tool Synthesis #In-context Learning #Agent Framework #Scalability

2026년 1월 4일

[논문리뷰] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

본 논문은 멀티모달 대규모 언어 모델(MLLMs) 이 시각적 내용보다 언어적 선험 지식에 과도하게 의존하여 발생하는 시각적으로 근거 없는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #MLLMs #Video Understanding #Hallucinations #Counterfactual Generation #Diffusion Models #Reinforcement Learning #QA Dataset #DNA-Train

2026년 1월 4일

[논문리뷰] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

본 논문은 기존 VLM 기반 에이전트의 텍스트 중심 추론 및 고립된 도구 호출 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Reinforcement Learning #Vision-Language Models #Tool Use #Agentic Reasoning #Image Search #HR-MMSearch #BN-GSPO

2026년 1월 4일

[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction

본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.

#Review #Next Token Prediction #Reinforcement Learning #Large Language Models #Reward Shaping #Pre-training Objective #Policy Gradient #Exploration-Exploitation

2026년 1월 4일

[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.

#Review #Agentic Learning Ecosystem #Large Language Models #Reinforcement Learning #Agentic Crafting #Tool Use #ROME Model #Policy Optimization #Sandbox Environment

2025년 12월 31일

[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Visual Thinking #Reinforcement Learning #Code Generation #Geometric Reasoning #Adaptive Reward Mechanism #Problem Solving

2025년 12월 31일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents

본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.

#Review #Software Engineering Agents #Execution-free Feedback #Reward Model #Reinforcement Learning #Test-Time Scaling #Calibration #AUC #SWE-Bench

2025년 12월 28일

[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.

#Review #GUI Agents #Foundation Models #Reinforcement Learning #Device-Cloud Collaboration #Mobile Navigation #Tool Augmentation #User Interaction

2025년 12월 28일

[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Visual Search #Foundation Models #Multi-agent Systems #Reinforcement Learning #Benchmarking #Visual Reasoning

2025년 12월 28일

[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.

#Review #Autoregressive Generation #Pixel-Aware Alignment #Variational Optimization #Reinforcement Learning #Visual Tokenizers #Image Quality #ELBO #Post-Training Framework

2025년 12월 25일

[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Mamba-Transformer #Agentic Reasoning #Long Context LLM #FP8 Quantization #Supervised Fine-Tuning #Reinforcement Learning

2025년 12월 24일

[논문리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence

Nemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.

#Review #Hybrid Mamba-Transformer #Mixture-of-Experts #LatentMoE #NVFP4 Training #Multi-Token Prediction #Long Context #Reinforcement Learning #Open Models

2025년 12월 24일

[논문리뷰] Step-DeepResearch Technical Report

본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.

#Review #Deep Research Agents #LLMs #Reinforcement Learning #Supervised Fine-tuning #Agentic AI #Multi-hop Reasoning #Benchmarking #Cost-effectiveness

2025년 12월 23일

[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs

멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Cognitive Hierarchy #Benchmark #Reinforcement Learning #Supervised Fine-tuning #Spatial Reasoning

2025년 12월 23일

[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos

본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent System #Long Video Understanding #Video Question Answering #Reinforcement Learning #Large Language Models #Temporal Grounding #Multimodal Reasoning #Tool-Augmented AI

2025년 12월 23일

[논문리뷰] INTELLECT-3: Technical Report

본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Mixture-of-Experts #Asynchronous Training #Distributed Systems #Agentic AI #Code Execution #Model Evaluation

2025년 12월 23일

[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination

본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.

#Review #LLM Hallucination Detection #Explainable AI #Faithfulness Evaluation #Data Augmentation #Reinforcement Learning #Fact-Checking

2025년 12월 23일

[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Interpretability #Transformer #Internal Policy #Entropy Analysis

2025년 12월 23일

[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.

#Review #LLM Agents #Environment Simulation #Co-evolution #Curriculum Learning #Data Efficiency #Reinforcement Learning #Adaptive Simulation #Difficulty Alignment

2025년 12월 22일

[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.

#Review #Formal Theorem Proving #Large Language Models #Reinforcement Learning #Agentic Prover #Lean Theorem Prover #Mathematical Reasoning #Test-Time Scaling

2025년 12월 21일

[논문리뷰] Meta-RL Induces Exploration in Language Agents

본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Meta-RL #LLM Agents #Exploration #Reinforcement Learning #Policy Adaptation #In-context Learning #Self-reflection #Multi-episode tasks

2025년 12월 21일

[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Robotics #Foundation Models #Multi-modal Learning #Reinforcement Learning #Sim-to-Real Transfer #Human-Robot Interaction

2025년 12월 21일

[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Vision-Language Models #Diffusion Models #Region-aligned Guidance #Reinforcement Learning #Instruction-Visual Complexity #Attention Mechanism

2025년 12월 18일

[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Clipping #Policy Entropy #Spurious Rewards #Mathematical Reasoning #RLVR

2025년 12월 18일

[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.

#Review #MLLM #Model Auditing #Capability Gaps #Failure Mode Discovery #Reinforcement Learning #Data Rectification #Counterfactual Generation #VQA

2025년 12월 18일

[논문리뷰] Adaptation of Agentic AI

본 논문은 급성장하는 에이전트 AI 시스템의 적응(adaptation) 연구 분야를 체계적인 프레임워크로 통합하고, 에이전트 적응과 툴 적응 모두를 포괄하는 통일된 관점을 제공하는 것을 목표로 합니다.

#Review #Agentic AI #Adaptation #Agent Adaptation #Tool Adaptation #Reinforcement Learning #Fine-tuning #Modular AI

2025년 12월 18일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[논문리뷰] Step-GUI Technical Report

논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.

#Review #GUI Automation #Self-Evolving Pipeline #Reinforcement Learning #Multimodal LLMs #Privacy-Preserving AI #Human-Computer Interaction #Model Context Protocol #Benchmarking

2025년 12월 17일

[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.

#Review #Video Reasoning #Reinforcement Learning #Multi-Turn Reasoning #Agent System #Long Videos #Synthetic Data #Any-Horizon Reasoning #Large Language Models

2025년 12월 17일

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일

[논문리뷰] ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

논문은 기존 이미지 생성 및 통합 모델이 깊은 추론, 계획, 그리고 데이터-시각 매핑의 정밀성을 요구하는 복잡한 태스크에서 한계를 보이는 문제에 주목합니다.

#Review #Table Visualization #Infographic Generation #Multi-modal Large Language Models (MLLMs)#Diffusion Models #Self-Correction #Reinforcement Learning #Graphic Design #Data-to-Visual Mapping

2025년 12월 16일

[논문리뷰] RecGPT-V2 Technical Report

RecGPT-V2는 기존 RecGPT-V1의 LLM 기반 추천 시스템 이 겪던 계산 비효율성, 설명 다양성 부족, 제한된 일반화 능력, 단순한 평가 방식의 네 가지 근본적인 한계를 해결하는 것을 목표로 합니다.

#Review #Recommender Systems #Large Language Models #Multi-Agent Systems #Reinforcement Learning #Dynamic Prompting #Hybrid Representation #Agentic Evaluation #Explanation Generation

2025년 12월 16일

[논문리뷰] Olmo 3

Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.

#Review #Large Language Models #Open-Source AI #Model Flow #Long-Context Reasoning #Instruction Following #Function Calling #Thinking Models #Data Curation #Reinforcement Learning

2025년 12월 16일

[논문리뷰] Memory in the Age of AI Agents

이 서베이 논문은 급증하는 AI 에이전트 메모리 연구 분야의 파편화된 개념적 명확성 부족을 해결하고, 기존 분류 체계의 한계 를 극복하고자 합니다.

#Review #AI Agents #Memory Systems #LLMs #Taxonomy #Continual Learning #Self-Evolution #Multimodality #Reinforcement Learning

2025년 12월 15일

[논문리뷰] Image Diffusion Preview with Consistency Solver

본 논문은 이미지 Diffusion 모델의 느린 추론 속도로 인해 저하되는 사용자 경험 문제를 해결하고자 합니다.

#Review #Diffusion Models #Efficient Sampling #Reinforcement Learning #ODE Solvers #Image Generation #Consistency #Diffusion Preview

2025년 12월 15일

[논문리뷰] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

본 논문은 기존 MLLM이 치과 영상 데이터의 미세한 시각적 특징을 포착하고 정밀한 진단을 위한 충분한 추론 능력을 갖추지 못하는 한계를 해결하고자 합니다. 이를 위해 치과 분야에 특화된 DentalGPT 를 개발하여 자동화된 구강 건강 관리에서 멀티모달 복합 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Large Language Model #Dental Imaging #Complex Reasoning #Domain Adaptation #Reinforcement Learning #Medical VQA #Dental Healthcare

2025년 12월 14일

[논문리뷰] Thinking with Images via Self-Calling Agent

본 논문은 희소한 고품질 추론 데이터로 인해 강화 학습을 통한 MLLM의 Interleaved Multimodal Chain-of-Thought (iMCoT) 최적화가 어렵다는 문제점을 해결하고자 합니다.

#Review #Multimodal LLMs #Self-Calling Chain-of-Thought #Reinforcement Learning #Visual Reasoning #Agentic AI #Tool Calling #Group Relative Policy Optimization

2025년 12월 11일

[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.

#Review #LLM Verification #Chain-of-Thought #Process-based Verifier #Outcome-based Verifier #Active Learning #Reinforcement Learning #Mathematical Reasoning #AI Alignment

2025년 12월 11일

[논문리뷰] Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

본 논문은 대규모 추론 모델(LRM)이 국제 수학 올림피아드(IMO) 수준의 초고난도 수학 문제를 해결하는 데 있어 긴 컨텍스트 길이의 제약 으로 인해 발생하는 병목 현상을 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Long-Horizon Reasoning #Multi-Agent System #Reinforcement Learning #Olympiad Problems #Lemma Memory #Context Length #OREAL-H

2025년 12월 11일

[논문리뷰] Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

본 논문은 복잡한 인터랙티브 태스크에서 LLM 에이전트가 직면하는 프라이버시 제약으로 인해 중앙 집중식 최적화 및 동적 환경 간 공동 진화가 어려운 문제를 해결하고자 합니다.

#Review #Federated Learning (FL)#LLM Agents #Self-Evolution #Privacy-Preserving #Multi-Environment #Parameter-Efficient Fine-Tuning #Low-Rank Aggregation #Reinforcement Learning

2025년 12월 11일

[논문리뷰] Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

텍스트-3D 자동회귀(autoregressive) 생성 모델에 강화 학습(RL) 을 체계적으로 적용하고 그 효과를 분석하는 것을 목표로 합니다. 특히, 3D 객체의 복잡한 기하학적 구조와 미세한 질감을 고려하여 보상 설계 와 RL 알고리즘 선택 이 3D 생성 성능에 미치는 영향을 심층적으로 탐구합니다.

#Review #Reinforcement Learning #Text-to-3D Generation #Autoregressive Models #Reward Modeling #Hierarchical RL #3D Benchmarking #ShapeLLM-Omni

2025년 12월 11일

[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Agents #Geometry Problem Solving #Reinforcement Learning #Curriculum Learning #Auxiliary Construction #Symbolic Reasoning #IMO

2025년 12월 11일

[논문리뷰] Learning Unmasking Policies for Diffusion Language Models

마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.

#Review #Diffusion Language Models #Reinforcement Learning #Masked Diffusion #Sampling Policy #Inference Optimization #Markov Decision Process #Generative AI #Text Generation

2025년 12월 10일

[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.

#Review #Knowledge Editing #Large Language Models #Lifelong Learning #Reinforcement Learning #Trust Region Policy Optimization #Chain-of-Thought #Catastrophic Forgetting

2025년 12월 10일

[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Diffusion Models #Generative Models #Tree Search #Sample Efficiency #Credit Assignment #GRPO #Visual Generative Models

2025년 12월 9일

[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.

#Review #LLM #Parallel Reasoning #Inference Latency #Chain-of-Thought #Reinforcement Learning #Adaptive Threading #Mathematical Reasoning #Speedup

2025년 12월 9일

[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.

#Review #Video Generation #Robotic Manipulation #Hierarchical Framework #Reinforcement Learning #Diffusion Models #World Models #Cognitive Science #Physical Alignment

2025년 12월 9일

[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Evolving Learning #Data-Scarce Domains #Context-First Learning #Reward Hacking Mitigation #Multimodal Reasoning #Curriculum Learning

2025년 12월 8일

[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning

이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.

#Review #Decoding-based Regression #Reinforcement Learning #Numerical Prediction #Large Language Models #Policy Gradient #Tokenization #Sequence Generation

2025년 12월 8일

[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

본 논문은 기존 텍스트-이미지(T2I) 생성 모델들이 보이는 '가짜 같은' AI 아티팩트(예: '지나치게 매끄러운 피부', '기름진 얼굴 광택') 문제를 해결하고, 현실과 구분 불가능한 수준의 사실적인 이미지 를 생성하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Photorealism #Reinforcement Learning #Diffusion Models #Adversarial Learning #Detector-Guided Rewards #LLM Prompt Optimization #Image Quality Assessment

2025년 12월 7일

[논문리뷰] ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

본 논문은 복잡한 추론 중심 비디오 객체 분할 (Reasoning VOS) 태스크에서 기존 Vision-Language Models (VLMs) 의 불투명한 단일 스텝 잠재 예측 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Video Object Segmentation #Reinforcement Learning #Vision-Language Models #Reasoning Chain #Explainable AI #Multi-step Reasoning

2025년 12월 7일

[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Curriculum Learning #Advantage Function #Reasoning Tasks #Multimodal AI #Policy Optimization #Generalization

2025년 12월 7일

[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Policy Optimization #Trust Region #Entropy Clipping #Large Language Models #Training Stability #Distributional Shift

2025년 12월 7일

[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

본 연구는 기존 MLLM이 3D 공간 추론 및 객체 속성 이해에 어려움을 겪는 문제를 해결하고자 합니다. 단일 통합 MLLM이 공간 지각 능력을 내재적으로 향상 시키고, 적응형의 인터리브드 추론 을 통해 더욱 강력한 공간 지능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Perception Enhancement #Auxiliary Modalities #Adaptive Interleaved Reasoning #Reinforcement Learning #Chain-of-Thought

2025년 12월 7일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.

#Review #Streaming Video Generation #Video Diffusion Models #Distribution Matching Distillation #Reinforcement Learning #Autoregressive Models #Attention Sink #Real-time

2025년 12월 4일

[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

본 논문은 기존 멀티모달 보상 모델(Reward Models, RMs)이 겪는 환각, 약한 시각적 접지(visual grounding), 그리고 검증을 위한 도구 사용 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reward Models #Agentic AI #Tool Use #Reinforcement Learning #Visual Reasoning #Multimodal LLMs #Instruction Following #Evaluation Benchmarks

2025년 12월 4일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Vision Language Models #Reinforcement Learning #Tool Augmentation #Robotics #Multi-Tool Use #Embodied AI

2025년 12월 3일

[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors

본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.

#Review #Self-Distillation #Cognitive Skills #Reinforcement Learning #Supervised Fine-Tuning #Language Models #Reasoning #Verification #Retrying

2025년 12월 3일

[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Alignment #Stable Rank #Intrinsic Reward #Reinforcement Learning #Geometric Properties #Group Relative Policy Optimization #Annotation-Free Alignment

2025년 12월 3일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video

기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reinforcement Learning #Visual Reasoning #Generalist Model #Image Understanding #Video Understanding #Multitask Learning #EMA-GRPO

2025년 12월 3일

[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Table Recognition #Self-supervised Learning #Vision-Language Models #Reinforcement Learning #Question Answering #Data Augmentation #GRPO

2025년 12월 2일

[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision

본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.

#Review #Self-Evolving LLMs #Self-Play #Reinforcement Learning #Curriculum Learning #Few-shot Learning #Human Supervision #Concept Drift #Diversity Collapse

2025년 12월 2일

[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.

#Review #GUI Agents #Screen Navigation #Reinforcement Learning #Multi-Turn RL #Simulation #Supervised Fine-tuning #Generalization

2025년 12월 2일

[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.

#Review #Large Language Models #Sparse Attention #Reinforcement Learning #Agentic AI #Tool Use #Open-source LLM #DeepSeek

2025년 12월 2일

[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Agentic Reasoning #Tool Use #Reinforcement Learning #Faithfulness Evaluation #Policy Optimization #Visual Search #Code Generation

2025년 12월 2일

[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.

#Review #CUDA #Matrix Multiplication #Reinforcement Learning #LLMs #Kernel Optimization #HGEMM #GPU Performance #cuBLAS

2025년 12월 2일

[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling

논문은 대규모 멀티모달 모델(LMMs)이 장시간 비디오(hours-long)에서 증거가 희박하고 시간적으로 분산된 정보를 처리할 때 발생하는 환각 현상과 부정확한 추론 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Multimodal LLMs #Tool Calling #Reinforcement Learning #Chain-of-Thought #Temporal Grounding #Video Question Answering

2025년 12월 1일

[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents

GUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.

#Review #GUI Agents #Reinforcement Learning #Context-aware #History Compression #Policy Optimization #Multimodal LLM #Dynamic Sampling

2025년 12월 1일

[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Robotic Manipulation #Reinforcement Learning #Vision-Language-Action #Dexterous Control #Long-Horizon Tasks #Data Filtering #Data Augmentation #Foundation Models

2025년 12월 1일

[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.

#Review #Code LLMs #Software Engineering Agents #Code Generation #Reinforcement Learning #Supervised Fine-tuning #Multimodal AI #Code Safety #Scaling Laws

2025년 12월 1일

[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

본 논문은 반복적인 샘플링 과정과 높은 훈련 비용으로 인해 computationally expensive한 확산 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Image Generation #Distillation #Reinforcement Learning #Few-Step Sampling #Timestep-Aware #Pixel-GAN #Model Efficiency

2025년 12월 1일

[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images

기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.

#Review #Remote Sensing #Vision-Language Models #Iterative Reasoning #Evidence-Seeking #Socratic Method #Reinforcement Learning #Multi-Agent System #VQA #Grounding

2025년 12월 1일

[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution

본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.

#Review #Reinforcement Learning #Large Language Models #Instruction Optimization #Policy Co-Evolution #Agentic AI #Tool-Integrated Reasoning #Self-Reflection

2025년 12월 1일

[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Structural Output #Information Extraction #JSON Schema #SO-Bench #Visual Reasoning #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 30일

[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Image Refinement #Reinforcement Learning #Fine-Grained Editing #Reference-Guided Generation #Latent Diffusion #Visual Fidelity #Detail Restoration

2025년 11월 30일

[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image Editing

이 논문은 확산 기반 이미지 편집 모델이 복잡한 사용자 지침(구성 관계, 맥락적 단서, 참조 표현 등)을 정확하게 해석하지 못하여 발생하는 의미론적 드리프트 및 편집 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Multimodal AI #Iterative Reasoning #Agentic AI #Reinforcement Learning #Diffusion Models #Vision-Language Models #Instruction Following

2025년 11월 27일

[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning

본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.

#Review #Visual Reasoning #Synthetic Environment #LVLM Evaluation #Reinforcement Learning #Cognitive Primitives #Procedural Generation #Multimodal AI

2025년 11월 26일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일

[논문리뷰] HunyuanOCR Technical Report

기존 파이프라인 기반 OCR 시스템의 에러 전파 및 높은 유지보수 비용 문제를 해결하고, 대규모 일반 VLM의 높은 컴퓨팅 자원 요구사항 과 OCR 특화 VLM의 불완전한 엔드투엔드 최적화 한계를 극복하는 것을 목표로 합니다.

#Review #Optical Character Recognition #Multimodal Large Language Model #End-to-End Learning #Reinforcement Learning #Document Parsing #Information Extraction #Text Spotting

2025년 11월 25일

[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다.

#Review #Self-Evolving Agent #Vision-Language Models #Tool-Integrated Reasoning #Reinforcement Learning #Self-Correction #Multimodal AI #Generative AI

2025년 11월 25일

[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information Seeking

본 논문은 기존 Process Reward Model (PRM) 의 한계, 즉 짧은 추론 단위에 대한 이진 판단과 급증하는 컨텍스트 처리의 어려움을 극복하는 것을 목표로 합니다.

#Review #Reward Modeling #Long-Horizon Tasks #Information Seeking #Large Language Models #Trajectory Summarization #Reinforcement Learning #Tool Use #Process Reward Models

2025년 11월 24일

[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLM Training #Hierarchical Credit Assignment #Trajectory Alignment #Group Relative Policy Optimization #Tool-Augmented Reasoning #Vertical Architecture

2025년 11월 24일

[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Physics Reasoning #Motion Tracking #Spatial-Temporal Grounding #Video QA #AIGC Analysis #Reinforcement Learning

2025년 11월 24일

[논문리뷰] General Agentic Memory Via Deep Research

AI 에이전트 분야에서 널리 사용되는 정적 메모리(AOT Compilation) 방식의 심각한 정보 손실 문제와 복잡한 컨텍스트 관리의 한계를 해결하는 것을 목표로 합니다.

#Review #AI Agents #Memory Systems #Large Language Models (LLMs)#Just-in-Time (JIT) Compilation #Memorizer #Researcher #Reinforcement Learning #Context Management

2025년 11월 24일

[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

이 논문의 핵심 목표는 기존 개방형 심층 연구 모델들이 짧은 형식의 질문 답변(QA)에 초점을 맞춰 실제 장문형 심층 연구 작업에 적용하기 어렵다는 한계를 극복하는 것입니다.

#Review #Reinforcement Learning #Evolving Rubrics #Deep Research #LLM Agents #Tool Use #Long-form QA #Open-source AI #Dynamic Evaluation

2025년 11월 24일

[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

본 논문은 인공 에이전트의 교차 환경 학습 능력 을 체계적으로 측정하기 위한 표준화된 인프라의 부재를 해결하는 것을 목표로 합니다. 특히, 다양하고 제어 가능한 환경의 부족과 에이전트 학습 방식을 통일적으로 표현할 방법이 없다는 두 가지 핵심 문제를 다룹니다.

#Review #Automated Environment Generation #Cross-Environment Learning #Agent Learning #Language Models #Benchmark #Meta-Learning #Reinforcement Learning #Environment Design Language

2025년 11월 24일

[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models #Latent Memory #Cognitive Memory #Visual Grounding #Short-term Memory #Long-term Memory #Reinforcement Learning

2025년 11월 23일

[논문리뷰] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

본 논문은 텍스트가 풍부한 비디오에서 미세한 증거를 기반으로 하는 추론 문제, 특히 기존 단일 패스(single-pass) 비디오 QA 모델의 환각 및 오류 문제 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models #Reinforcement Learning #Visual Rumination #Text-Rich Video #Video Question Answering #Iterative Perception

2025년 11월 23일

[논문리뷰] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

멀티모달 추론(Multimodal Reasoning) 분야에서 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략 의 부재로 인한 확장성 연구의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Multimodal Models #Supervised Fine-tuning #Reinforcement Learning #Data Curation #Open-source #Multimodal Benchmarks

2025년 11월 23일

[논문리뷰] GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

본 연구는 기존 에이전트 시각 추론 모델들이 주로 이미지 조작 도구에 집중하여 일반적인 목적으로 확장하기 어려운 한계를 해결하고자 합니다.

#Review #Geolocalization #Agentic Models #Visual Reasoning #Web-Augmented #Multimodal LLMs #Reinforcement Learning #Tool Use #GeoBench

2025년 11월 23일

[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.

#Review #Video Generation #Next Event Prediction #Reinforcement Learning #Vision-Language Model #Video Diffusion Model #Joint Optimization #Multimodal AI #Procedural Learning

2025년 11월 20일

[논문리뷰] Step-Audio-R1 Technical Report

오디오 언어 모델이 추론 과정을 거치면 성능이 저하되는 기존의 문제, 즉 '텍스트 대리 추론' 현상을 해결하고, 오디오 도메인에서 진정한 추론 능력을 성공적으로 활성화하는 것을 목표로 합니다. 이는 오디오 인텔리전스에 대한 심층적 사고의 이점을 입증하고자 합니다.

#Review #Audio Reasoning #Multimodal LLMs #Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought #Reinforcement Learning #Audio Understanding #Self-Distillation

2025년 11월 20일

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Model (VLM)#Embodied AI #Autonomous Driving #Foundation Model #Multimodal Learning #Task Planning #Affordance Prediction #Spatial Understanding #Reinforcement Learning

2025년 11월 20일

[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from Images

본 논문은 인간 주석이나 작업별 휴리스틱 없이, 대규모 비정형 이미지 데이터로부터 Vision-Language Models (VLMs) 의 추론 능력을 자율적으로 개선하는 것을 목표로 합니다. 기존 강화 학습(RL) 방식이 지닌 비용과 확장성 한계를 극복하고자 합니다.

#Review #Self-Evolving #Vision-Language Models #Reinforcement Learning #Self-Play #Unlabeled Data #Multimodal Reasoning #Group Relative Policy Optimization #Hallucination Mitigation

2025년 11월 19일

[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.

#Review #Video Chaptering #Long-form Video Understanding #Large Language Models #Multimodal Learning #Hierarchical Summarization #Video Segmentation #Reinforcement Learning #Dataset Creation

2025년 11월 19일

[논문리뷰] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding

본 논문은 기존 텍스트 기반 자기 성찰(self-reflection) 메커니즘 이 풍부하고 동적인 시각 정보를 처리하는 데 한계가 있어, 장문 비디오 이해(long-form video understanding) 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다.

#Review #Multimodal Reasoning #Long-Form Video Understanding #Self-Reflection #Reinforcement Learning #Tool-Augmented MLLMs #Visual Rethinking #Video Question Answering #Causal Attribution

2025년 11월 18일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Physics Reasoning #Agentic AI #Olympiad Problems #Post-Training #Knowledge Transfer

2025년 11월 17일

[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.

#Review #Research Agent #Tool-Augmented Reasoning #Interaction Scaling #Large Language Models #Reinforcement Learning #Context Management #Open-Source AI

2025년 11월 17일

[논문리뷰] AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing

본 논문은 대규모 언어 모델(LLM)이 겪는 전략적 취약성, 사실적 환각, 맞춤화 부족 문제로 인해 난항을 겪는 목표 지향적 설득형 대화(예: 텔레마케팅) 의 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 극복하고 실제 판매 시나리오에 효과적인 AI 에이전트를 개발하고자 합니다.

#Review #Telemarketing #Large Language Models #Persuasive Dialogue #Reinforcement Learning #Bayesian Optimization #Dynamic Prompting #Dialogue Systems

2025년 11월 17일

[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.

#Review #Visual Language Model #UI-to-Code Generation #Interactive UI #UI Editing #UI Polishing #Reinforcement Learning #Multimodal Coding #Test-Time Scaling

2025년 11월 16일

[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLMs #Pipeline Parallelism #Reasoning #Reward Shaping #Agentic AI

2025년 11월 16일

[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.

#Review #LLM #Instruction Following #Reinforcement Learning #Rubric-based Evaluation #Benchmarking #Reward Shaping #Rubric Verifier #AdvancedIF

2025년 11월 13일

[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language Models

이 논문은 기존 오디오-언어 모델(ALM)의 표면적인 인식 수준을 넘어 인간과 유사한 심층적인 음악 이해 및 추론 능력을 갖춘 모델을 개발하는 것을 목표로 합니다. 특히 고품질 음악 데이터 부족과 기존 모델의 제한적인 음악 이해 능력을 극복하고자 합니다.

#Review #Audio Language Models #Music Understanding #Chain-of-Thought #Reinforcement Learning #Data Curation #Multimodal AI #Music Information Retrieval

2025년 11월 13일

[논문리뷰] Black-Box On-Policy Distillation of Large Language Models

본 논문은 내부 로짓이나 파라미터에 접근할 수 없는 블랙박스(black-box) 대규모 언어 모델(LLM) 을 대상으로, 학생 모델이 교사 모델의 텍스트 출력만을 학습하는 온-정책(on-policy) 증류(distillation) 방법을 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Knowledge Distillation (KD)#Black-box Distillation #Generative Adversarial Networks (GANs)#On-policy Learning #Reinforcement Learning #Minimax Game #Model Compression

2025년 11월 13일

[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning

본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Understanding #Self-Supervised Learning #Reinforcement Learning #MLLMs #Pretext Tasks #Verifiable Rewards #Data Generation #Temporal Grounding

2025년 11월 11일

[논문리뷰] TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

본 논문은 수만 개의 프레임에서 관련 정보를 식별해야 하는 긴 형식 비디오 이해 태스크에서, 기존의 수동으로 고안된 검색 전략이 최적의 검색 전략 학습을 위한 end-to-end 최적화가 부족하다는 문제를 해결합니다.

#Review #Long-form Video Understanding #Temporal Search #Reinforcement Learning #Self-Verification #Video-Language Models #Adaptive Search #Interleaved Reasoning

2025년 11월 11일

[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the Principals

RLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Parameter-Efficient Fine-Tuning #Optimization Bias #Spectral Geometry #Model Sparsity #LoRA

2025년 11월 11일

[논문리뷰] Grounding Computer Use Agents on Human Demonstrations

이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.

#Review #Computer Use Agents #UI Grounding #Desktop Applications #Human Demonstrations #Large-Scale Dataset #Vision-Language Models #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 11일

[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #LLM #Reinforcement Learning #Soft-Thinking #Gumbel Reparameterization #Policy Optimization #Chain-of-Thought (CoT)#GRPO

2025년 11월 10일

[논문리뷰] Robot Learning from a Physical World Model

본 논문은 비디오 생성 모델에서 생성된 픽셀 동작을 물리적으로 실현 가능한 로봇 동작으로 변환하는 과정에서 발생하는 문제를 해결하고자 합니다.

#Review #Robot Learning #Video Generation #Physical World Model #Reinforcement Learning #Zero-shot Manipulation #Object-Centric Learning #Sim-to-Real

2025년 11월 10일

[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.

#Review #Reinforcement Learning #Large Language Models #Hierarchical Knowledge #Knowledge Traversal #Structured Prompting #Internal Representations #Alignment Tax

2025년 11월 10일

[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

SNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.

#Review #LLM Post-Training #Domain Adaptation #Social Networking Services #Reinforcement Learning #Supervised Fine-Tuning #Catastrophic Forgetting #Data Efficiency

2025년 11월 10일

[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.

#Review #Reinforcement Learning #LLMs #Generalization #Overfitting #Catastrophic Forgetting #Iterative Policy Optimization #Policy Diversity

2025년 11월 10일

[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Language Models #Adaptive Environments #Verifiable Environments #Procedural Generation #Curriculum Learning #Generalization

2025년 11월 10일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Agents #Markov Decision Process #Workspace Reconstruction #Reinforcement Learning #Context Management #Iterative Deep Research #LLM Agents #Efficiency-Aware Policy Optimization

2025년 11월 10일

[논문리뷰] Visual Spatial Tuning

본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Spatial Reasoning #Spatial Perception #Dataset Creation #Reinforcement Learning #Visuospatial AI #Robotics

2025년 11월 9일

[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model

본 논문은 텍스트와 이미지를 단순히 이해하는 것을 넘어, 코드 실행 환경 및 웹 검색 과 같은 외부 도구를 능동적으로 호출하고 이러한 도구 작업을 추론 과정에 원활하게 통합할 수 있는 Agentic 멀티모달 모델 을 구축하는 것을 목표로 합니다.

#Review #Agentic AI #Multimodal Models #Tool Use #Reinforcement Learning #Supervised Fine-tuning #Multimodal Reasoning #Web Search #Code Execution

2025년 11월 9일

[논문리뷰] V-Thinker: Interactive Thinking with Images

본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models #Interactive Reasoning #Vision-Centric Thinking #Reinforcement Learning #Data Synthesis #Visual Tools #Curriculum Learning #Multimodal AI

2025년 11월 9일

[논문리뷰] Scaling Agent Learning via Experience Synthesis

대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.

#Review #Reinforcement Learning #LLM Agents #Experience Synthesis #World Models #Curriculum Learning #Sim-to-Real Transfer #Web Agents

2025년 11월 9일

[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

MLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Post-training #Reasoning #Dual-Reward System #Thinking Reward #Judging Reward #Hallucination Reduction

2025년 11월 9일

[논문리뷰] Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots

본 연구는 기존 로봇 제어 시스템의 모듈 분리(decoupled modules)로 인한 지연된 반응과 비일관적인 행동 문제를 해결하고자 합니다.

#Review #Humanoid Robot #Reinforcement Learning #RoboCup #Soccer Skills #Vision-Driven Control #Adversarial Motion Priors #Sim-to-Real #Perception-Action Coordination

2025년 11월 9일

[논문리뷰] VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

본 논문은 동적 비디오에서 복잡하고 진화하는 감정 상태를 합리적인 근거와 함께 이해하고 예측하는 데 초점을 맞춥니다. 기존 VideoLLM 의 한계인 복합적인 감정 이해 및 설명 능력 부족을 극복하기 위해, 감정 중심의 비디오 기반 파운데이션 모델인 VidEmo 를 제안합니다.

#Review #VideoLLMs #Emotion Understanding #Affective-Tree Reasoning #Curriculum Learning #Reinforcement Learning #Fine-Grained Emotion #Attribute Perception #Expression Analysis

2025년 11월 9일

[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.

#Review #Chart Comprehension #Visual Reasoning #Data Generation #Code-Driven Pipeline #Multimodal LLMs #Retrieval-Augmented Generation #Reinforcement Learning #Synthetic Data

2025년 11월 9일

[논문리뷰] World Simulation with Video Foundation Models for Physical AI

본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.

#Review #Physical AI #World Simulation #Video Foundation Models #Flow Matching #Reinforcement Learning #Robotics #Autonomous Driving #Synthetic Data Generation

2025년 11월 9일

[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #Generative AI #Reasoning #Reinforcement Learning #MLLMs #Supervised Fine-tuning #Information Retrieval #Unified Embeddings

2025년 11월 9일

[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset

본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Locomotion #Dataset #Motion Imitation #Physics-based Control #Motion Retargeting #Data Curation #Reinforcement Learning #Inverse Kinematics

2025년 11월 9일

[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner

논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.

#Review #Open-Ended Learning #Self-Play #Reinforcement Learning #Large Language Models #Mathematical Reasoning #Problem Generation #Curriculum Learning #Reward Shaping

2025년 11월 9일

[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Benchmarking #Visual Measurement Reading #Synthetic Data Generation #Fine-grained Perception #Spatial Grounding #Reinforcement Learning

2025년 11월 9일

[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

본 논문은 최신 Multimodal Large Language Models (MLLMs) 의 3D 공간 추론 능력을 평가하고 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Spatial Reasoning #Viewpoint Learning #Two-Stage Fine-tuning #3D Consistency #Viewpoint-100K #Reinforcement Learning

2025년 11월 9일

[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.

#Review #Self-supervised learning #Reinforcement Learning #Spatial Understanding #Vision-Language Models #Pretext Tasks #RGB-D Images #Spatial Reasoning

2025년 11월 9일

[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.

#Review #Conversational Recommender Systems #Large Language Models #Reinforcement Learning #Group Relative Policy Optimization #Rank-based Learning #Supervised Fine-tuning #Reward Shaping

2025년 11월 9일

[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Uncertainty Calibration #Reinforcement Learning #Confidence Estimation #Brier Score #GUI Agents #Visual-Language Models

2025년 11월 9일

[논문리뷰] Defeating the Training-Inference Mismatch via FP16

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Fine-tuning #Training-Inference Mismatch #Floating Point Precision #FP16 #BF16 #RL Stability

2025년 11월 9일

[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.

#Review #Reinforcement Learning #LLM Reasoning #Policy Valuation #Markov Decision Process #Diversity #Math Reasoning #Verifiable Rewards

2025년 9월 30일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Website Generation #Code Agent #LLM #VLM #Reinforcement Learning #Multi-Level Feedback #GUI Agent #Step-GRPO

2025년 9월 29일

[논문리뷰] Variational Reasoning for Language Models

언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.

#Review #Variational Inference #Language Models #Reasoning #ELBO #IWAE #Reinforcement Learning #Latent Variables #Forward-KL

2025년 9월 29일

[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework

본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #LVLMs #Reward Modeling #Policy Optimization #Self-Reflection #Verifiable Rewards #Co-evolution

2025년 9월 29일

[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning

대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Entropy Control #Advantage Estimation #Quantile Baseline #Exploration-Exploitation #RLVR

2025년 9월 29일

[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.

#Review #Reinforcement Learning #LLM Agents #Exploration-Exploitation #Self-Imitation Learning #Intrinsic Rewards #Curriculum Learning #Policy Entropy #Tool Use

2025년 9월 29일

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.

#Review #Image Captioning #Reinforcement Learning #Verifiable Rewards #LVLMs #VQA #Data Curation #Caption Quality

2025년 9월 29일

[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.

#Review #Reinforcement Learning #Curriculum Learning #Large Language Models #Mathematical Reasoning #Variance-based Sampling #Replay Learning #Policy Optimization

2025년 9월 26일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.

#Review #Scientific Reasoning #Foundation Models #Multi-modal Learning #Cross-domain Generalization #Chain-of-Thought #Reinforcement Learning #Scientific Discovery #Molecular Design

2025년 9월 26일

[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Temporal Reasoning #Reinforcement Learning #Process Supervision #Dynamic Time Warping #Multimodal Large Language Models #Video State Prediction #Reward Hacking

2025년 9월 26일

[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Reinforcement Learning #Variance-Aware Sampling #Gradient Vanishing #Data Curation #Chain-of-Thought #GRPO

2025년 9월 26일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] Advancing Speech Understanding in Speech-Aware Language Models with GRPO

본 논문은 GRPO (Group Relative Policy Optimization) 기반의 방법을 도입하여 Speech-Aware Large Language Models (SALLMs) 의 개방형 음성 이해 능력 을 향상시키는 것을 목표로 합니다.

#Review #Speech-Aware Language Models #SALLMs #GRPO #Reinforcement Learning #Speech Understanding #Spoken Question Answering #Automatic Speech Translation #BLEU Metric

2025년 9월 25일

[논문리뷰] Reinforcement Learning on Pre-Training Data

논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] MAPO: Mixed Advantage Policy Optimization

본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.

#Review #Reinforcement Learning #Foundation Models #Policy Optimization #Advantage Function #Trajectory Certainty #Multimodal Reasoning #GRPO

2025년 9월 24일

[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Reinforcement Learning #Cultural Heritage #Ancient Greek Pottery #Supervised Fine-Tuning #Benchmark

2025년 9월 23일

[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

이 논문은 비디오 시간적 접지(temporal grounding) 작업에서 멀티모달 대규모 언어 모델(MLLMs) 의 효율성을 개선하는 것을 목표로 합니다. 기존 강화 학습( RL ) 방법론, 특히 GRPO 가 큰 시간 검색 공간에서 비효율적인 탐색과 불안정한 정책 업데이트를 겪는 문제를 해결하고자 합니다.

#Review #Video LLMs #Temporal Grounding #Reinforcement Learning #Off-policy Learning #Reward Shaping #Chain-of-Thought #Multimodal LLMs

2025년 9월 23일

[논문리뷰] Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning

본 연구는 LLM의 기초적인 기호 추론 능력을 향상시키기 위한 확장 가능한 RLVR (Reinforcement Learning with Verifiable Rewards) 환경인 Reasoning Core 를 소개합니다.

#Review #LLM Reasoning #Symbolic AI #Reinforcement Learning #Procedural Content Generation #Verifiable Rewards #Adaptive Curricula #First-Order Logic #PDDL Planning

2025년 9월 23일

[논문리뷰] Mano Report

본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-modal Foundation Model #Reinforcement Learning #Supervised Fine-tuning #Simulated Environment #Data Generation #Error Recovery #Web Automation

2025년 9월 23일

[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Policy Optimization #Token Heterogeneity #Adaptive Sampling #Advantage Redistribution #Asymmetric Clipping #Entropy-based RL

2025년 9월 23일

[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward Process

본 논문은 확산 모델의 온라인 강화 학습(RL) 적용 시 발생하는 고유한 문제점, 즉 다루기 어려운 가능도(likelihoods)와 역방향 샘플링 과정의 제약사항을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Online RL #Flow Matching #Forward Process #CFG-free #Image Generation #Negative-Aware FineTuning

2025년 9월 23일

[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations

논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.

#Review #Agent Environments #Agent Evaluation #LLM Agents #Asynchronous Systems #Reinforcement Learning #Tool Use #Multi-agent Collaboration #Benchmark

2025년 9월 23일

[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

AI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.

#Review #GUI Agent #Human-GUI Interaction #Cognitive Modeling #Reinforcement Learning #Multimodal Large Language Models #Attention Mechanisms #Action Planning

2025년 9월 22일

[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems

본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.

#Review #Agentic Recommender Systems #Simulated Environments #LLM-driven Simulation #Multi-turn Interaction #Reinforcement Learning #User Retention #Instruction Following #Multi-agent Systems

2025년 9월 19일

[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning

대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Distribution Matching #GFlowNets #Mode Collapse #Diverse Reasoning #Flow-Balanced Optimization

2025년 9월 19일

[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Tool-Integrated Reasoning #Reinforcement Learning #Hierarchical Optimization #Self-Correction #Large Language Models #Code Generation

2025년 9월 18일

[논문리뷰] SAIL-VL2 Technical Report

본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Understanding #Mixture-of-Experts #Progressive Training #Data Curation #Supervised Fine-tuning #Reinforcement Learning #SAIL-ViT

2025년 9월 18일

[논문리뷰] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

WebSailor-V2는 오픈소스 웹 에이전트의 역량을 혁신적으로 향상시켜, 독점 시스템과의 성능 격차를 줄이는 것을 목표로 합니다. 특히 데이터 구성 및 확장 가능한 강화 학습(RL) 훈련의 두 가지 주요 과제를 해결하여 복잡한 웹 환경에서 고급 추론 및 도구 사용 능력을 갖춘 에이전트를 개발하고자 합니다.

#Review #Web Agents #Reinforcement Learning #Synthetic Data #Knowledge Graphs #LLMs #Supervised Fine-Tuning #Sim-to-Real Transfer #Agentic AI

2025년 9월 17일

[논문리뷰] Single-stream Policy Optimization

본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Optimization #Policy Gradient #Variance Reduction #Adaptive Sampling #Scalability #Agentic Systems #RLVR

2025년 9월 17일

[논문리뷰] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

이 논문은 대규모 언어 모델(LLM) 기반 에이전트가 장기 웹 탐색 작업을 수행할 때 컨텍스트 윈도우의 제한으로 인해 충분한 탐색이 불가능한 문제를 해결하고자 합니다.

#Review #LLM Agents #Context Management #Summarization #ReAct #Reinforcement Learning #Web Search #Long-Horizon Reasoning

2025년 9월 17일

[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #LLM #Test-Time Scaling #Chain-of-Thought #Reinforcement Learning #Efficiency Optimization #Token Cost #Sampling Cost #Dynamic CoT Switching

2025년 9월 17일

[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Automation #Reinforcement Learning #Semi-online RL #Offline RL #Online RL #Patch Module #Multi-turn Interaction #Large Language Models

2025년 9월 16일

[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Visual Reasoning #Reflection #Reinforcement Learning #Visual Attention #Slow Thinking #Multimodal Agents

2025년 9월 16일

[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models

본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.

#Review #Diffusion LLMs #Reinforcement Learning #Inpainting #Policy Optimization #Exploration #Mathematical Reasoning #GRPO

2025년 9월 15일

[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models (LLMs)#Diversity Collapse #f-divergence #Forward-KL #JS-divergence #Pass@k #Catastrophic Forgetting

2025년 9월 12일

[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Policy Gradients #Entropy Modulation #Credit Assignment #Uncertainty #Long-Horizon Tasks #Self-Calibrating Gradient Scaling

2025년 9월 12일

[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Understanding #Multimodal Generation #Unified Models #Auto-Encoder #Reinforcement Learning #Image-to-Text #Text-to-Image #Reconstruction Fidelity

2025년 9월 12일

[논문리뷰] Hunyuan-MT Technical Report

본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.

#Review #Machine Translation #Large Language Model #Multilingual #Low-Resource Languages #Reinforcement Learning #Weak-to-Strong Learning #Slow Thinking

2025년 9월 11일

[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interaction #Long-Horizon Decision Making #Agent Framework #Exploration-Exploitation #Progressive Scaling

2025년 9월 11일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일

[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

본 논문은 이미지 커스터마이징 모델에서 다중 정체성(multi-identity)을 생성할 때 발생하는 정체성 일관성 부족(identity consistency) 과 정체성 혼란(identity confusion) 문제를 해결하는 것을 목표로 합니다.

#Review #Image Customization #Multi-Identity Generation #Identity Consistency #Identity Confusion #Reinforcement Learning #Diffusion Models #Matching Reward #Global Assignment

2025년 9월 10일

[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.

#Review #Large Language Models #Parallel Thinking #Reinforcement Learning #Mathematical Reasoning #Progressive Curriculum #Reward Design #Exploration Scaffold

2025년 9월 10일

[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.

#Review #Visual Search #Multi-Turn Reasoning #Reinforcement Learning #Tool-Integrated Agents #Exploratory Reasoning #Data Augmentation #Over-turn Masking #Visual Language Models

2025년 9월 10일

[논문리뷰] Language Self-Play For Data-Free Training

본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.

#Review #Large Language Models #Reinforcement Learning #Self-Play #Data-Free Training #Instruction Following #Adversarial Training #Reward Modeling

2025년 9월 10일

[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Human Preference #Text-to-Image Generation #Reward Hacking #Direct-Align #SRPO #Fine-Grained Control #Flow Matching Models

2025년 9월 10일

[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Trajectory-aware RL #Value Model #Masked Diffusion Models #Large Language Models #Reasoning Tasks #Code Generation

2025년 9월 9일

[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey

본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.

#Review #Reinforcement Learning #Deep Research Systems #Agentic AI #Tool Use #Hierarchical Agents #Reward Design #Multimodal AI #RL Frameworks

2025년 9월 9일

[논문리뷰] Reinforced Visual Perception with Tools

본 논문은 멀티모달 대규모 언어 모델(LLM)이 복잡한 시각적 추론 문제를 해결하고 외부 시각 도구를 효과적으로 활용하는 능력을 강화하는 것을 목표로 합니다. 기존 지도 학습(SFT) 기반 접근 방식의 한계인 고비용 데이터 생성, 섬세한 데이터 필터링 필요성, 그리고 제한된 일반화 능력을 극복하고자 합니다.

#Review #Visual Reasoning #Multimodal LLMs #Reinforcement Learning #Tool Usage #Perception-heavy Benchmarks #GRPO #Vision Tools

2025년 9월 9일

[논문리뷰] Symbolic Graphics Programming with Large Language Models

본 논문은 대규모 언어 모델(LLMs)이 자연어 설명으로부터 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs) , 특히 Scalable Vector Graphics (SVGs) 를 생성하는 능력을 탐구합니다.

#Review #Symbolic Graphics Programming #Large Language Models #Reinforcement Learning #SVG Generation #Text-to-Image Synthesis #Cross-Modal Alignment #Program Synthesis

2025년 9월 8일

[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.

#Review #Long Video Understanding #Reinforcement Learning #Multi-Turn Reasoning #MLLMs #Video Segment Selection #Bi-level Reward #Question Answering

2025년 9월 5일

[논문리뷰] Open Data Synthesis For Deep Research

본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.

#Review #Data Synthesis #Deep Research #Hierarchical Constraint Satisfaction Problems #Large Language Models #Agentic AI #Reinforcement Learning #Question Answering

2025년 9월 4일

[논문리뷰] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

본 연구는 데이터 희소성, 확장 가능한 멀티-턴 강화 학습(RL), GUI 전용 작동의 한계, 환경 확장성 및 안정성 과 같은 자율 GUI 에이전트 개발의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-Turn RL #Reinforcement Learning #Data Flywheel #Agent Framework #Hybrid Environments #Parameter Interpolation

2025년 9월 3일

[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool-Integrated Reasoning #Multi-turn Reasoning #Gradient Explosion #Training Stability #Trajectory Filtering #Zero RL

2025년 9월 3일

[논문리뷰] Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 능력을 습득하기 위해 필요한 값비싼 강화 학습(RL) 기반 최적화 과정을 대체하는 방법을 모색합니다.

#Review #Reasoning Vectors #Task Arithmetic #Chain-of-Thought #LLMs #Reinforcement Learning #Model Merging #Parameter Transfer

2025년 9월 3일

[논문리뷰] MobiAgent: A Systematic Framework for Customizable Mobile Agents

본 논문은 GUI 기반 모바일 에이전트가 직면하는 낮은 태스크 완료율, 느린 응답 시간, 예상치 못한 상황 처리 능력 부족 등 실세계 태스크 실행의 정확성과 효율성 문제 를 해결하고자 합니다. 특히, 기존 모델들의 한계를 극복하고 맞춤형 모바일 에이전트 를 위한 체계적인 프레임워크를 제공하는 것을 목표로 합니다.

#Review #Mobile Agents #GUI Agents #Vision-Language Models #Agent Acceleration #Benchmarking #Reinforcement Learning #Data Collection

2025년 9월 3일

[논문리뷰] Kwai Keye-VL 1.5 Technical Report

본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Video Understanding #Slow-Fast Encoding #Long Context #Chain-of-Thought #Reinforcement Learning #Human Alignment #Native-Resolution Vision Encoder

2025년 9월 3일

[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations

대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.

#Review #Reinforcement Learning #Language Models #Diversity Optimization #Quality Enhancement #Semantic Clustering #Post-training #Generative AI

2025년 9월 3일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System

의료 분야 LLM 이 USMLE 같은 정적 벤치마크에서는 우수하지만 실제 임상 환경의 동적, 상호작용적 특성을 포착하지 못해 발생하는 성능 격차를 해소하는 것이 목표입니다.

#Review #Medical AI #LLM #Reinforcement Learning #Verifier System #Patient Simulator #Clinical Rubrics #Baichuan-M2 #HealthBench

2025년 9월 3일

[논문리뷰] PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

본 연구는 에이전트 추론(agentic reasoning)을 위한 critic-free 강화 학습 방법론, 특히 그룹 정책(group policies)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Critic-Free RL #Agentic Reasoning #Policy Optimization #Large Language Models (LLMs)#Advantage Estimation #Group Sampling #Static Value Estimation

2025년 9월 2일

[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning

이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.

#Review #GUI Agent #Foundational Model #Multimodal LLM #Perception #Planning #Reinforcement Learning #Data Engineering #Chinese App Scenarios

2025년 9월 1일

[논문리뷰] Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

대규모 언어 모델(LLM)이 복잡한 추론 작업에는 능숙하지만, 인간 아이들이 쉽게 수행하는 간단한 상호작용 작업에서는 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Game AI #Procedural Knowledge #Declarative Knowledge #Explainable AI #Strategic Decision-Making

2025년 9월 1일

[논문리뷰] Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

본 논문은 기존의 단일 모달(symbolic regression 또는 LLM) 접근법이 물리학자들이 현상학적 시각적 표현을 활용하는 점을 간과하여 동적 현상 내재의 시공간 패턴을 해석하는 능력이 약하다는 문제를 해결하고자 합니다.

#Review #Physics Formula Discovery #Multimodal AI #Vision-Language Models #Symbolic Regression #Causal Chain of Thought #Reinforcement Learning #Agentic AI

2025년 9월 1일

[논문리뷰] HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

이 논문은 복잡한 다지(multi-fingered) 로봇 핸드를 활용한 모바일 양손 로봇 조작(mobile bimanual dexterous manipulation)에서 다양한 소스의 인간 동작 데이터를 실제 로봇 행동으로 효과적으로 변환 하는 도전 과제를 해결하는 것을 목표로 합니다.

#Review #Dexterous Manipulation #Mobile Manipulation #Human-to-Robot Learning #Sim2Real #Reinforcement Learning #Depth Image #Visual Localization #Bimanual Control

2025년 9월 1일

[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Text-to-Image Generation #GRPO #Reward Hacking #Pairwise Preference #Reward Model #Stable Optimization #UniGenBench

2025년 8월 29일

[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

논문은 마스크 기반 이미지 편집(Image Fill, Extend, Object Removal, Text Rendering)의 다양한 하위 태스크에서 기존 모델들의 제한적인 범용성과 태스크별 지도 학습 미세 조정(SFT) 의 비효율성을 해결하고자 합니다.

#Review #Image Generation #Mask-Guided Editing #Reinforcement Learning #Human Preference Learning #Vision-Language Models #Multi-Task Learning #Flow Matching

2025년 8월 29일

[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI

본 논문은 에이전트 AI 시스템 개발의 핵심 병목인 비효율적인 경험 생성(experience generation) 문제를 해결하여, 복잡한 환경에서 '학습을 통한 실천(learning from practice)' 패러다임을 실용적이고 확장 가능하게 만드는 것을 목표로 합니다.

#Review #Agentic AI #Reinforcement Learning #Distributed Systems #Experience Generation #LLM Fine-tuning #GAIA Benchmark #Scalability #AWORLD Framework

2025년 8월 29일

[논문리뷰] StepWiser: Stepwise Generative Judges for Wiser Reasoning

본 논문은 대규모 언어 모델(LLM)이 복잡한 문제 해결을 위해 사용하는 다단계 추론(Chain-of-Thought) 전략에서 각 중간 단계의 논리적 유효성을 감독하는 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Process Reward Models #Reinforcement Learning #Generative Judges #Stepwise Feedback #Chain-of-Thought #Meta-Reasoning

2025년 8월 28일

[논문리뷰] Self-Rewarding Vision-Language Model via Reasoning Decomposition

Vision-Language Model (VLM)이 겪는 시각적 환각 및 언어적 지름길 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Rewarding #Reasoning Decomposition #Visual Perception #Language Reasoning #Hallucinations #Language Shortcuts

2025년 8월 28일

[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Discrete Diffusion #Action Decoding #Transformer #Robot Control #Masked Modeling #Adaptive Decoding #Reinforcement Learning

2025년 8월 28일

[논문리뷰] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

GUI(Graphical User Interface) 기반 자율 에이전트의 핵심 난제인 장기 계획(long-horizon planning) 능력과 정밀한 미세 실행(fine-grained execution) 능력 사이의 고질적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #GUI Agents #Reinforcement Learning #Planner-Executor Architecture #Decoupled Training #Large Vision-Language Models #Specialization #Generalization #Computer Use Agent

2025년 8월 28일

[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Policy Optimization #Large Language Models #Inference Efficiency #Tree Search #Segment-level Decoding #Advantage Estimation #Reasoning

2025년 8월 27일

[논문리뷰] ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

대규모 언어 모델(LLMs)의 CoT(Chain-of-Thought) 추론 능력은 뛰어나지만, 실제 배포 시 연산 비용을 효율적으로 제어하는 것이 어렵습니다.

#Review #LLMs #Controllable Reasoning #Computational Efficiency #Reinforcement Learning #Supervised Fine-tuning #Reasoning Compression #Budget-Aware Training

2025년 8월 27일

[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #Chain of Thought #Multimodal LLMs #Stage-Aware Rewards #Semantic Reasoning #Generative AI

2025년 8월 26일

[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Inference Efficiency #Vision-Language Models #Open-Source #Versatility #Reasoning

2025년 8월 26일

[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Bottleneck #Instructional Scaffolding #Rubric-based Rewards #General Reasoning #RL with Verifiable Rewards #Policy Optimization

2025년 8월 26일

[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.

#Review #Reasoning Depth #Cellular Automata #Transformer Architectures #Recurrence #Adaptive Computation Time #Chain-of-Thought #Reinforcement Learning #Generalization

2025년 8월 26일

[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.

#Review #Agentic RAG #Medical Diagnosis #Reinforcement Learning #Traceable AI #Large Language Models #Clinical Decision Support #Out-of-Distribution Generalization #Reward Design

2025년 8월 25일

[논문리뷰] CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

본 논문은 LLM의 추론 능력 향상을 목표로, 기존 SFT(Supervised Fine-Tuning) 방식의 제한된 일반화 능력과 RL(Reinforcement Learning) 기반 방식의 불안정한 추론 경로 샘플링 및 주석된 CoT(Chain-of-Thought) 활용 부족 이라는 두 가지 주요 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Contrastive Learning #Reinforcement Learning #Fine-tuning #Chain-of-Thought (CoT)#Annotated Data #Model Stability

2025년 8월 25일

[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Play #Variational Problem Synthesis #Policy Entropy #Pass@k #Reasoning Benchmarks

2025년 8월 25일

[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation

본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.

#Review #GUI Automation #Multimodal Agents #Foundational Models #Reinforcement Learning #Large Language Models #Cross-Platform #Self-Supervised Learning

2025년 8월 22일

[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model

본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.

#Review #Multimodal Foundation Model #Scientific AI #Reinforcement Learning #Mixture-of-Experts (MoE)#Dynamic Tokenizer #Data Curation #Low-Resource Learning

2025년 8월 22일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.

#Review #Flow Matching #Reinforcement Learning #Human Preference Alignment #GRPO #Temporal Credit Assignment #Generative AI #Text-to-Image

2025년 8월 20일

[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.

#Review #Embodied AI #Robotic Manipulation #Reinforcement Learning #Vision-Language Model #Pointing #Zero-shot Generalization

2025년 8월 20일

[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.

#Review #Self-Refinement #Language Models #Reinforcement Learning #Proactive AI #Generation Process #Markov Decision Process #Adaptive Learning #LLM Efficiency

2025년 8월 20일

[논문리뷰] Reinforcement Learning with Rubric Anchors

이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Rubric-based Reward #RLVR Extension #Human-centric AI #Controllable Generation #Reward Hacking Mitigation

2025년 8월 19일

[논문리뷰] Thyme: Think Beyond Images

본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Code Generation #Image Processing #Reinforcement Learning #Supervised Fine-Tuning #Visual Reasoning #Sandbox

2025년 8월 18일

[논문리뷰] SSRL: Self-Search Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Search #Sim-to-Real Transfer #Agentic AI #Knowledge Retrieval #Reward Modeling

2025년 8월 18일

[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.

#Review #Visual Mathematical Reasoning #MLLMs #Knowledge System #Reinforcement Learning #Curriculum Learning #Dataset Construction #Mathematical Benchmark

2025년 8월 15일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

본 논문은 인간 중심 시나리오에서 MLLM(Multimodal Large Language Models) 의 심층적인 이해 및 공감적, 상황 인지적 응답 능력을 평가하기 위한 세분화된 평가 프레임워크의 부족 문제 를 해결하고자 합니다.

#Review #Multimodal LLMs #Human-Centered AI #Empathy #Context-Awareness #MLLM Benchmark #Reinforcement Learning #Reasoning

2025년 8월 15일

[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.

#Review #Multimodal Agent #Long-Term Memory #Episodic Memory #Semantic Memory #Reinforcement Learning #Video Question Answering #Entity-Centric Memory

2025년 8월 14일

[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Discovery #Chain-of-Thought #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Molecular Generation #Explainable AI

2025년 8월 14일

[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Model #Policy Optimization #Reward Hacking #Hybrid Annotation #Mathematical Reasoning #Verifiable Rewards

2025년 8월 14일

[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Fine-tuning #Reinforcement Learning #Meta-learning #Adaptive Control #Imitation Learning #Exploration #Reasoning

2025년 8월 14일

[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning

대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.

#Review #Curriculum Learning #Reinforcement Learning #Large Language Models #Reasoning Efficiency #Token Budget Control #Group Relative Policy Optimization #Chain-of-Thought

2025년 8월 13일

[논문리뷰] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

이 논문은 로봇의 능숙한 파지(dexterous grasping) 시 기존 연구들이 간과했던 어포던스 인식(affordance-aware) 위치 설정 및 인간과 유사한 자세 의 중요성에 주목합니다.

#Review #Robotic Dexterous Grasping #Affordance-Aware #Human-like Priors #Reinforcement Learning #Vision-Language Models #Two-Stage Training #Manipulation

2025년 8월 13일

[논문리뷰] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

본 논문은 확산 언어 모델(dLLMs)이 텍스트를 생성하는 반복적인 디노이징 과정에서 '시간적 진동(temporal oscillation)' 이라는 중요한 현상을 규명하고, 이를 활용하여 모델 성능을 개선하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Temporal Oscillation #Self-Consistency Voting #Reinforcement Learning #Temporal Semantic Entropy #Text Generation

2025년 8월 13일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Agentic Search #Asynchronous RL #Long-Horizon Planning #Tool Use #Data Synthesis

2025년 8월 13일

[논문리뷰] Aryabhata: An exam-focused language model for JEE Math

본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.

#Review #Language Model #Math Reasoning #JEE #Supervised Fine-Tuning #Reinforcement Learning #Model Merging #Chain-of-Thought #Curriculum Learning

2025년 8월 13일

[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.

#Review #Audio-Language Models #Jailbreak Attack #Adversarial Audio #Reinforcement Learning #Projected Gradient Descent #Native Payload Discovery #Multimodal AI Safety

2025년 8월 12일

[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Passage Ranking #Reasoning Models #Large Language Models #Data Synthesis #Reinforcement Learning #Listwise Reranking #Information Retrieval

2025년 8월 12일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일

[논문리뷰] Compressing Chain-of-Thought in LLMs via Step Entropy

Large Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.

#Review #LLM #Chain-of-Thought #CoT Compression #Step Entropy #Reinforcement Learning #SFT #GRPO

2025년 8월 12일

[논문리뷰] UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

본 논문은 기존 GUI 에이전트 훈련 및 추론 방식의 세 가지 한계점인 추론 설계 딜레마(P1) , 비효율적인 보상(P2) , 그리고 고해상도 디스플레이에서의 시각적 노이즈(P3) 를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Grounding #MLLMs #Reward Function #Resampling #Visual Noise Reduction

2025년 8월 11일

[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

본 논문은 MLLM(Multimodal Large Language Model) 기반 GUI 에이전트 의 핵심 과제인 자연어 지시문 GUI Grounding 에서 의미론적 정렬(Semantic Alignment) 의 비효율적인 탐색 문제 해결을 목표로 합니다.

#Review #GUI Grounding #MLLMs #Reinforcement Learning #Policy Optimization #Exploration Strategy #Semantic Alignment #Adaptive Exploration Reward #Human-Computer Interaction

2025년 8월 11일

[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.

#Review #Large Language Model #Mixture-of-Experts #Agentic AI #Reasoning #Code Generation #Reinforcement Learning #Foundation Model

2025년 8월 11일

[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data

본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.

#Review #Self-Evolving LLM #Reinforcement Learning #Curriculum Learning #Reasoning #Large Language Models #Self-Play #Zero-Data Training

2025년 8월 8일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence

본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.

#Review #Social Intelligence #Reinforcement Learning #Reward Design #Large Language Models #Utterance-level Rewards #Multi-dimensional Rewards #Partial Observability #SOTOPIA

2025년 8월 7일

[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.

#Review #Computer Use Agent #Self-Evolving #Reinforcement Learning #Curriculum Learning #Vision-Language Models #Experiential Learning #Specialist-to-Generalist

2025년 8월 7일

[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.

#Review #Root Cause Analysis #Large Language Models #5G Wireless Networks #Supervised Fine-Tuning #Reinforcement Learning #Chain-of-Thought #TeleLogs Dataset

2025년 8월 7일

[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Capability Collapse #Hybrid Policy Optimization #Multiple Importance Sampling #Exploration #Math Reasoning #Out-of-Distribution

2025년 8월 7일

[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.

#Review #LLMs #Instruction Following #Reasoning #Reinforcement Learning #Supervised Fine-tuning #Entropy Regularization #Self-Checking #Previewing

2025년 8월 7일

[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.

#Review #Instruction Following #Reinforcement Learning #Reward Hacking #LLMs #Curriculum Learning #Data Flywheel #Verifiable Rewards

2025년 8월 7일

[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language Models #Synthetic Worlds #Transfer Learning #PPO #Actor-Critic #Embodied AI

2025년 8월 7일

[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning

본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #AI Agents #Framework #Markov Decision Process #Hierarchical RL #Training-Agent Disaggregation #Observability

2025년 8월 7일

[논문리뷰] Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

본 논문은 형식 증명 자동화(Automated Theorem Proving, ATP) 분야에서 기존의 대규모 모델 및 연산량 의존성을 극복하고, 더 적은 자원으로도 최첨단 성능을 달성하는 새로운 오픈소스 언어 모델 시리즈인 Goedel-Prover-V2 를 개발하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Formal Verification #Language Models #Self-Correction #Data Synthesis #Reinforcement Learning #Model Averaging #Lean

2025년 8월 6일

[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.

#Review #LLM Evaluation #Answer Verification #Reward Model #Benchmarking #Data Augmentation #Reinforcement Learning #Formula Verification #Hallucination Detection

2025년 8월 6일

[논문리뷰] CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

논문은 ANNS(Approximate Nearest Neighbor Search) 알고리즘 최적화의 수작업적, 전문 지식 의존적 특성을 해결하는 것을 목표로 합니다. LLM을 강화 학습으로 증강하여 실행 속도를 보상 신호로 삼아, ANNS 구현을 자동으로 최적화하는 새로운 패러다임인 CRINN 을 제안합니다.

#Review #Approximate Nearest Neighbor Search #Reinforcement Learning #Large Language Models #Code Optimization #HNSW #Retrieval-Augmented Generation #Contrastive Learning

2025년 8월 6일

[논문리뷰] Qwen-Image Technical Report

본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Text Rendering #Multimodal Diffusion Transformer #Curriculum Learning #Reinforcement Learning #Foundation Model

2025년 8월 5일

[논문리뷰] Exploitation Is All You Need... for Exploration

본 논문은 기존 RL에서 탐색을 위해 명시적인 인센티브를 부여하는 방식과 달리, 순수한 탐욕적인(exploitation-only) 목적 만으로도 탐색적 행동이 자연스럽게 나타날 수 있는지 검증하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Exploration-Exploitation #Meta-RL #Transformer Architecture #Emergent Behavior #Multi-Armed Bandits #Gridworlds #Pseudo-Thompson Sampling

2025년 8월 5일

[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

본 연구는 대규모 시각-언어 모델(LVLM)에서 고해상도 입력 처리 시 발생하는 시각 토큰 폭증으로 인한 비효율성을 해결하고자 합니다.

#Review #Large Vision-Language Models (LVLMs)#Visual Token Pruning #Dynamic Compression #GlimpsePrune #Computational Efficiency #VQA #Reinforcement Learning

2025년 8월 5일

[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.

#Review #3D Vision-Language Models #Reasoning #Scene Understanding #Reinforcement Learning #Chain-of-Thought #Dynamic View Selection #Multi-task Learning

2025년 8월 4일

[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.

#Review #Automated Theorem Proving #Large Language Models #Formal Verification #Reinforcement Learning #Lean #Geometry Reasoning #Chain-of-Thought #Lemma-Style Proving

2025년 8월 2일

[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents

본 논문은 강화 학습(RL) 모델의 과적합 문제를 해결하여, visuomotor 에이전트가 다양한 환경에서 일반화 가능한 행동을 습득하지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Multi-Task Learning #Visuomotor Agents #Spatial Reasoning #Generalization #Minecraft #Cross-View Goal Specification #Automated Task Synthesis

2025년 8월 2일

[논문리뷰] The Era of Agentic Organization: Learning to Organize with Language Models

본 논문은 AI가 개별 지능의 한계를 넘어 협력적이고 동시적으로 복잡한 문제를 해결하는 '에이전트 조직(agentic organization)' 시대를 목표로 합니다.

#Review #Agentic Organization #Asynchronous Thinking #Language Models #Reinforcement Learning #Multi-agent Systems #Reasoning #Task Decomposition #Orchestration

2025년 10월 31일

[논문리뷰] Emu3.5: Native Multimodal Models are World Learners

본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5 를 소개합니다. 자연스러운 멀티모달 능력 을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력 을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Model #World Model #Vision-Language #Next-Token Prediction #Reinforcement Learning #Discrete Diffusion Adaptation #Image Generation #Any-to-Image

2025년 10월 31일

[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Electronic Health Records #Large Language Models #Reasoning Enhancement #Instruction Tuning #Reinforcement Learning #Data Synthesis #Medical AI #Clinical Decision Support

2025년 10월 31일

[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.

#Review #Urban Sensing #Socio-Economic Status #Vision-Language Models #Reinforcement Learning #Generalization #Interpretability #Multi-modal Data

2025년 10월 31일

[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning

본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models #Reinforcement Learning #Chain-of-Thought #Video Understanding #Temporal Grounding #Video Captioning #Autonomous Tool Use

2025년 10월 30일

[논문리뷰] Reasoning-Aware GRPO using Process Mining

본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Process Mining #Policy Optimization #Mathematical Reasoning #GRPO #PM4GRPO

2025년 10월 30일

[논문리뷰] ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

자연어 수학 문제를 기계 검증 가능한 형식적 진술로 변환하는 자동 형식화(Autoformalization) 과정에서 대규모 언어 모델(LLM) 이 원본 문제의 의미적 의도 를 정확히 보존하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Autoformalization #Large Language Models #Reinforcement Learning #Self-Reflection #Semantic Consistency #Formal Mathematical Reasoning #Sequence Optimization

2025년 10월 30일

[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models

통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.

#Review #Unified Vision-Language Models #Reinforcement Learning #Multimodal Alignment #Pairwise Training #Group Relative Policy Optimization #Data Augmentation #Text-to-Image Generation #Visual Reasoning

2025년 10월 30일

[논문리뷰] MASPRM: Multi-Agent System Process Reward Model

Multi-Agent Systems (MAS)의 추론 시 검색 과정에서 발생하는 비신뢰성 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Process Reward Model #MCTS #Inference-time Search #LLM Agents #Zero-shot Transfer #Reinforcement Learning #Compute-Aware Reasoning

2025년 10월 30일

[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

RLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Policy Optimization #Reward Modeling #Flawed Reasoning #Reliable AI #Error Detection

2025년 10월 30일

[논문리뷰] WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

LLM 기반 정보 탐색(IS) 에이전트가 겪는 낮은 탐색 효율성 문제를 해결하는 것이 주된 목표입니다.

#Review #LLM-based Agents #Information Seeking #Search Efficiency #Task Synthesis #Reinforcement Learning #Tree-structured Reasoning #WebAgent

2025년 10월 29일

[논문리뷰] VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations

컴퓨터 비전 분야에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Visualization Quality Assessment #MLLMs #Benchmark #Aesthetics #Fidelity #Expressiveness #Fine-tuning #Reinforcement Learning

2025년 10월 29일

[논문리뷰] Tongyi DeepResearch Technical Report

본 논문은 장기적인 정보 탐색 및 심층 연구 태스크를 위해 설계된 에이전트형 대규모 언어 모델인 Tongyi DeepResearch 를 소개하고 오픈소스화하는 것을 목표로 합니다.

#Review #Agentic LLM #Deep Research #Information Seeking #Reinforcement Learning #Synthetic Data #Context Management #Tool Use #Open-source AI

2025년 10월 29일

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일

[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries

본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.

#Review #Search Agents #Interactive AI #Ambiguous Queries #Benchmarking #Language Agents #Information Retrieval #Overconfidence #Reinforcement Learning

2025년 10월 29일

[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.

#Review #Function Calling #Multi-Turn Interaction #Large Language Models (LLMs)#Data Synthesis #Agentic AI #Tool Use #Chain-of-Thought (CoT)#Reinforcement Learning

2025년 10월 29일

[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Language Models #Critiquing #Two-Stage Optimization #Actor-Critic #Scalable Oversight #Discriminability #Helpfulness

2025년 10월 29일

[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Best-of-N Sampling #Max@k Optimization #Policy Gradients #Off-policy Learning #Code Generation

2025년 10월 28일

[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards

대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.

#Review #Language Agents #Language Server Protocol (LSP)#CLI #Process Rewards #Code Refactoring #Static Analysis #Reinforcement Learning #Deterministic Execution

2025년 10월 28일

[논문리뷰] Code Aesthetics with Agentic Reward Feedback

대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.

#Review #Code Aesthetics #Agentic Reward Feedback #Large Language Models #Reinforcement Learning #Instruction Tuning #Webpage Design #Multimodal Evaluation

2025년 10월 28일

[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.

#Review #MoE #Reinforcement Learning #Training Stability #Routing #Policy Alignment #Rollout Routing Replay #LLMs

2025년 10월 27일

[논문리뷰] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

본 논문은 flow-matching 기반 T2I(Text-to-Image) 생성 에서 GRPO(Group Relative Policy Optimization)의 두 가지 주요 한계, 즉 불정확한 이점 귀인(inaccurate advantage attribution) 과 생성 과정의 시간적 역학(temporal dynamics) 무시 를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #GRPO #Flow Matching #Chunk-level Optimization #Temporal Dynamics #Diffusion Models

2025년 10월 27일

[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets

기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.

#Review #Autonomous Agents #Large Language Models #Tool Use #Reinforcement Learning #Memory Management #Tool Retrieval #Agentic Reasoning

2025년 10월 27일

[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision

본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.

#Review #LLM Agents #Self-play #Reinforcement Learning #Search Agents #Supervision-Free Training #Retrieval-Augmented Generation (RAG)#Task Generation #Curriculum Learning

2025년 10월 24일

[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.

#Review #Video Reasoning #Spatio-Temporal Grounding #Large Multimodal Models #Reinforcement Learning #Chain-of-Thought #Visual Evidence #Dataset Curation

2025년 10월 24일

[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.

#Review #Reinforcement Learning #LLM Alignment #Human Values #Reward Shaping #Value-Weighted Reward #Termination Policy #RLVR

2025년 10월 24일

[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCR

본 논문은 인쇄된 문서를 깨끗하고 자연스럽게 정렬된 일반 텍스트로 변환하는 OCR 시스템인 OLMOCR 2 를 제안합니다. 특히, 강화 학습(RL) 과 검증 가능한 보상(RLVR) 을 활용하여 수학 공식, 테이블 파싱, 다단 레이아웃과 같은 복잡한 문서 구조 처리 성능을 대폭 개선하는 것을 목표로 합니다.

#Review #Document OCR #Vision Language Model #Reinforcement Learning #Unit Tests #Synthetic Data Generation #RLVR #Document Parsing #State-of-the-Art OCR

2025년 10월 23일

[논문리뷰] Unified Reinforcement and Imitation Learning for Vision-Language Models

본 논문은 대규모 Vision-Language Models (VLMs) 의 비효율성을 해결하기 위해, 리소스가 제한된 환경에서도 강력하고 경량화된 VLM을 구축하는 효율적인 훈련 알고리즘 Unified Reinforcement and Imitation Learning (RIL) 을 제안합니다.

#Review #Vision-Language Models #Reinforcement Learning #Imitation Learning #Model Distillation #Lightweight VLMs #LLM-as-a-Judge #Multimodal Learning

2025년 10월 23일

[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Long Context Reasoning #Large Language Models #Multi-hop QA #Data Synthesis #Retrieval-Augmented Generation #Chain-of-Thought

2025년 10월 23일

[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.

#Review #Long-Context LLM #Hybrid Attention #Linear Attention #Mixture-of-Experts #FP8 Training #GPU Optimization #Training-Inference Alignment #Reinforcement Learning

2025년 10월 23일

[논문리뷰] ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

본 논문은 명령어 기반 인터페이스에서 AI 에이전트 상호작용으로 변화하는 인간-운영체제 상호작용의 흐름 속에서, 사용자의 지시를 정확히 따르고 사용자 의도를 충실히 반영하는 강건하고 개인화된 대화형 OS 에이전트 인 ColorAgent 를 구축하는 것을 목표로 합니다.

#Review #OS Agent #Reinforcement Learning #Multi-agent Systems #Personalization #Proactive Interaction #GUI Agents #Self-Evolving Training

2025년 10월 23일

[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.

#Review #Scientific Reasoning #Bio-experimental Protocol Generation #LLM #Structured Reward #SciRecipe Dataset #Sketch-and-Fill #Reinforcement Learning #Thoth

2025년 10월 22일

[논문리뷰] Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)의 개인화가 사용자의 개별적인 선호도에 충실하게 부합하도록 하는 도전적인 문제를 해결하고자 합니다.

#Review #LLM Personalization #Reinforcement Learning #Generative Reward Model #Critique-Post-Edit #Reward Hacking #Controllable AI

2025년 10월 22일

[논문리뷰] Extracting alignment data in open models

본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.

#Review #Alignment Data Extraction #Large Language Models #Memorization #Neural Embeddings #Semantic Similarity #Chat Templates #Model Distillation #Reinforcement Learning #Supervised Finetuning

2025년 10월 22일

[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.

#Review #Verifiable Learning #Data Synthesis #Evolutionary Algorithm #Large Language Models #Reinforcement Learning #Model Distillation #Test Generation

2025년 10월 22일

[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.

#Review #Automated Trading #Reinforcement Learning #LLM Agents #Tool Orchestration #Financial Markets #Algorithmic Trading #Interpretable AI #ReAct

2025년 10월 22일

[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Reinforcement Learning #MLLM #Policy Optimization #Finetuning #Reward Modeling #Human Alignment

2025년 10월 21일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일

[논문리뷰] RL makes MLLMs see better than SFT

본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.

#Review #Multimodal Language Models #Reinforcement Learning #Supervised Finetuning #Vision Encoder #Visual Representations #Direct Preference Optimization #Preference Alignment #PIVOT

2025년 10월 21일

[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

본 논문은 지식 기반 시각 질문 답변(KB-VQA) 태스크에서 멀티모달 쿼리의 품질과 검색 결과의 관련성 이 부족하여 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Question Answering #Retrieval-Augmented Generation #Multimodal AI #Reinforcement Learning #Knowledge Base #Tool Learning #Information Filtering

2025년 10월 21일

[논문리뷰] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

본 논문은 원시 데이터부터 분석가 수준의 심층 연구 보고서에 이르는 완전히 자율적인 데이터 과학 을 달성하는 것을 목표로 합니다. 기존 워크플로우 기반 데이터 에이전트들이 사전 정의된 워크플로우에 의존하여 복잡한 데이터 과학 태스크와 다양한 정형 데이터 처리에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Autonomous Data Science #Agentic LLM #Curriculum Learning #Reinforcement Learning #Data Agents #End-to-end Data Science

2025년 10월 21일

[논문리뷰] InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training

본 논문은 보상 함수가 모호하고 주관적인 개방형 AI 태스크 , 특히 의료 상담 과 같은 고위험 시나리오에서 LLM의 성능 향상을 목표로 합니다.

#Review #LLMs #Reinforcement Learning #Rubric-Based Training #Medical Dialogue #Open-Ended Tasks #HealthBench #RAG

2025년 10월 20일

[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Length Penalty #Reasoning Efficiency #Large Language Models #RL Optimization #Accuracy-Efficiency Trade-off #Chain-of-Thought

2025년 10월 20일

[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation

본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.

#Review #Image Generation #Image Editing #Autoregressive Model #Diffusion Model #Reinforcement Learning #Multimodal AI #Foundation Model #Open-source

2025년 10월 20일

[논문리뷰] A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

이 논문은 추론 중심 LLM(도구 사용 불가)과 에이전트 중심 LLM(추론 능력 부족) 간의 근본적인 격차를 해결하고자 합니다.

#Review #Adaptive Agent #Foundation Model #Hybrid Reasoning #Tool-Aware LLM #Mode Selection #Reinforcement Learning #Cost Efficiency #LLM Agent

2025년 10월 20일

[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.

#Review #Video Reward Models #Multimodal Reasoning #Thinking-with-Image #Visual Reasoning #Reinforcement Learning #Chain-of-Thought #Context Management

2025년 10월 17일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interactions #Reward Sparsity #Information Gain #Policy Optimization #Ground-Truth Awareness #Sample Efficiency

2025년 10월 17일

[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs

본 연구는 LLM 훈련에 필수적인 RL(강화 학습)의 확장(Scaling) 특성에 대한 예측 방법론이 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Compute Efficiency #Predictability #Sigmoidal Curves #ScaleRL #Off-Policy RL

2025년 10월 16일

[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.

#Review #Video Generation #Physical Plausibility #Reinforcement Learning #Direct Preference Optimization #Physical Representation #Diffusion Models #World Models #Image-to-Video

2025년 10월 16일

[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.

#Review #Multi-turn Text-to-SQL #Agentic Training #Reinforcement Learning #Large Language Models #Dialogue Systems #Semantic Parsing #Database Interaction #Self-correction

2025년 10월 16일

[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search

본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Multi-Agent Systems #Failure Tracing #Root Cause Analysis #Information Dependency Graph #Reinforcement Learning #Deep Search

2025년 10월 16일

[논문리뷰] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

본 논문은 모방 학습(IL)에만 의존하는 자율주행 모델이 겪는 일반화 성능 저하 및 롱테일 시나리오 대응 문제 를 해결하고자 합니다. 또한, 강화 학습(RL)의 샘플 비효율성 및 불안정한 수렴 문제를 극복하기 위해, IL과 RL을 효과적으로 통합 하여 보다 견고하고 일반화된 자율주행 정책을 개발하는 것을 목표로 합니다.

#Review #Autonomous Driving #Imitation Learning #Reinforcement Learning #World Models #Latent Space #Dual-Policy #Competitive Learning

2025년 10월 16일

[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

본 논문은 LLM의 불투명한 추론 과정을 명확히 이해하고, 기존 RL의 균일한 크레딧 할당 방식이 중요한 추론 단계를 모호하게 만드는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Attention Mechanisms #Reinforcement Learning #Credit Assignment #Policy Optimization #Interpretability #Preplan-and-Anchor Rhythm #Generative Models

2025년 10월 16일

[논문리뷰] Robot Learning: A Tutorial

이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.

#Review #Robot Learning #Reinforcement Learning #Imitation Learning #Behavioral Cloning #Vision-Language-Action Models #Diffusion Models #Transformers #LeRobot

2025년 10월 15일

[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.

#Review #Long-Horizon Tasks #Agentic AI #Context Curation #Working Memory #Reinforcement Learning #Policy Optimization #Large Language Models #Memory-as-Action

2025년 10월 15일

[논문리뷰] Detect Anything via Next Point Prediction

본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Object Detection #Coordinate Prediction #Reinforcement Learning #Supervised Fine-tuning #Visual Perception #Zero-shot Learning #Spatial Reasoning

2025년 10월 15일

[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

기존 MLLM이 지식 집약적 시각 질의응답(VQA)에서 겪는 정보 부족, 정체된 데이터, 비효율적인 검색 쿼리 등의 한계를 극복하기 위해, 멀티모달 LLM이 온디맨드 다중 턴 웹 검색 을 수행하고 이미지와 텍스트 검색 도구 모두에 대해 동적으로 쿼리를 생성 및 개선 하는 능력을 부여하는 것을 목표로 합니다.

#Review #Multimodal LLM #Web Search #Visual Question Answering #Reinforcement Learning #Image Cropping #Self-Correction #Tool Use

2025년 10월 15일

[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Reinforcement Learning #Memory Efficiency #Monte Carlo Sampling #Log-Likelihood Approximation #Policy Optimization #ELBO

2025년 10월 15일

[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.

#Review #Spatial Reasoning #Multi-Scale Vision #MLLM #Dataset #Scale Experts #Reinforcement Learning #Computer Vision #Robotics

2025년 10월 13일

[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.

#Review #Long-Horizon Reasoning #Query Composition #Large Reasoning Models #Reinforcement Learning #Benchmark Evaluation #Thinking Budget #Performance Degradation #Chain-of-Thought

2025년 10월 13일

[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.

#Review #Large Language Models #LLM Alignment #Game Theory #Reinforcement Learning #Mutual Welfare #Payoff Matrix #Strategic Decision Making #Human-AI Interaction

2025년 10월 13일

[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

AI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.

#Review #AI Agents #Reinforcement Learning #World Models #Simulation #Reasoning #Language Models #Planning #Interactive AI

2025년 10월 13일

[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning Tasks #GRPO #Negative Samples #Reward Modeling #Confidence Reweighting #Mathematical Reasoning

2025년 10월 13일

[논문리뷰] ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping

멀티모달 대규모 추론 모델(MLRMs)이 쉬운 문제에 대해 과도하게 추론하여 비효율적인 반면, 어려운 문제에는 불충분한 탐색으로 해답을 놓치는 불균형을 해결하는 것이 목표입니다. 문제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론 프레임워크 ARES 를 제시하여 MLRM의 효율성과 성능을 개선하고자 합니다.

#Review #Multimodal Reasoning #Adaptive Learning #Reinforcement Learning #Entropy Shaping #Difficulty-Aware #Chain-of-Thought #Token-Level Analysis

2025년 10월 13일

[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.

#Review #Long-Horizon Tasks #LLM Agents #Global Planning #Reinforcement Learning #Supervised Fine-tuning #Homologous Consensus Filtering #Executor Capability Gain Reward #Plan-and-Execute

2025년 10월 13일

[논문리뷰] Training-Free Group Relative Policy Optimization

본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구 통합 및 특정 프롬프트 전략에서 겪는 성능 저하 문제를 해결하는 것을 목표로 합니다. 특히, 기존 강화 학습(RL) 기반의 파라미터 업데이트 방식이 수반하는 높은 계산 비용, 데이터 희소성, 과적합 문제를 파라미터 업데이트 없이 극복하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Parameter-Free Optimization #Experiential Knowledge #Token Prior #Group Relative Policy Optimization #In-Context Learning #Cost-Effective AI

2025년 10월 10일

[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Sentence Embedding #Retrieval-Augmented Generation #Chain-of-Thought #Information Retrieval #Supervised Fine-tuning

2025년 10월 10일

[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference Optimization

본 논문은 효율적인 확산 모델 을 그룹 상대 선호도 에 기반하여 정렬하는 과정에서 발생하는 핵심적인 문제를 해결합니다.

#Review #Diffusion Models #Reinforcement Learning #Preference Optimization #Group Preference #Direct Preference Optimization #ODE Samplers #Efficient Training

2025년 10월 10일

[논문리뷰] Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

대규모 언어 모델(LLM)의 메타 인식(meta-awareness) 능력 부족으로 인한 심각한 불일치(misalignment) 문제를 해결하고, 메타 예측(meta-prediction)과 실제 롤아웃(rollout) 간의 정렬을 통해 추론 모델의 성능을 향상시키는 것을 목표로 합니다.

#Review #Meta-Awareness #Reinforcement Learning #Self-Alignment #LLM Reasoning #Training Efficiency #Generalization #Predictive Gating

2025년 10월 10일

[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.

#Review #Multimodal LLMs #Reflective Reasoning #Long-Chain Reasoning #Benchmark #Policy Optimization #Data Generation #Reinforcement Learning #Backtracking

2025년 10월 10일

[논문리뷰] Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

본 논문은 Verifiable Reward를 사용하는 RL(RLVR) 환경에서 Large Language Model(LLM)의 탐색 능력 저하, 즉 '탐색 붕괴' 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Exploration #Verifiable Reward #Low-Probability Regularization #Reasoning Sparks #Policy Entropy #KL Divergence #Mathematical Reasoning

2025년 10월 10일

[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Reward Modeling #Large Language Models (LLMs)#Mathematical Reasoning #Sparse Rewards #Dense Rewards #Hybrid Reinforcement #Verifier-based Rewards

2025년 10월 10일

[논문리뷰] GCPO: When Contrast Fails, Go Gold

본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs Reasoning #Policy Optimization #Contrastive Learning #Chain of Thought #Reference Answers #Math Reasoning #Gold-Standard Answer

2025년 10월 10일

[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints

논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.

#Review #Entropy Regularization #Activation Functions #Continuous Control #Large Language Models #Image Classification #Reinforcement Learning #Policy Stochasticity #Entropy Constraints

2025년 10월 10일

[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

본 연구는 컨택트(contact)가 풍부한 인핸드 객체 회전(in-hand object rotation) 태스크에서 발생하는 심-투-리얼(sim-to-real) 격차 의 근본적인 문제를 해결하는 것을 목표로 합니다.

#Review #Dexterous Manipulation #In-Hand Rotation #Sim-to-Real Transfer #Neural Dynamics Model #Joint-Wise Learning #Autonomous Data Collection #Reinforcement Learning #Robotics

2025년 10월 10일

[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #LLM Agents #Self-Evolution #Reinforcement Learning #Interaction Rewards #LLM-as-a-Judge #Decentralized Learning

2025년 10월 10일

[논문리뷰] Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

본 논문은 기존의 다중 턴 에이전트가 낮은 태스크 복잡도와 컨텍스트 관리의 한계로 인해 장기적인 상호작용에서 깊은 추론 능력을 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Deep Search Agents #Dynamic Context Window #Reinforcement Learning #Long-horizon Interaction #Context Management #High-difficulty Tasks #Multi-turn Reasoning #Web Agents

2025년 10월 10일

[논문리뷰] Agent Learning via Early Experience

본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.

#Review #Language Agents #Early Experience #Reward-Free Learning #World Modeling #Self-Reflection #Imitation Learning #Reinforcement Learning #Out-of-Domain Generalization

2025년 10월 10일

[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning

본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.

#Review #Question Answering #Reinforcement Learning #Large Language Models #Ambiguity Resolution #Multi-hop QA #Automated Data Generation #Tool-Augmented LLMs #AnsF1 Reward

2025년 10월 10일

[논문리뷰] The Markovian Thinker

본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Chain-of-Thought #Markovian Thinking #Context Management #Computational Efficiency #Long-Context LLMs #Transformer Optimization

2025년 10월 9일

[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

본 논문은 Vision-Language-Action (VLA) 모델 에 강화 학습(RL)을 적용할 때 발생하는 소규모 및 파편화된 실험의 문제점을 해결하고자 합니다. 대규모 실험을 지원하고 다양한 모델, 알고리즘, 평가 설정 간의 공정한 비교를 가능하게 하는 통합적이고 효율적인 프레임워크 를 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #VLA Models #Robotics #GPU Management #PPO #GRPO #Sim-to-Real

2025년 10월 9일

[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization

본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.

#Review #Multi-Agent RL #Tool-Integrated Planning #Large Language Models (LLMs)#Policy Optimization #Credit Assignment #Reinforcement Learning #MATPO

2025년 10월 9일

[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

본 논문은 다양한 양상의 데이터(텍스트, 이미지)를 처리할 수 있는 옴니(Omni) 형태의 멀티모달 생성 및 이해 모델 인 Lumina-DiMOO를 제안합니다.

#Review #Multi-modal LLM #Discrete Diffusion #Image Generation #Image Understanding #Omni-modal #Interactive Retouching #Generative AI #Reinforcement Learning

2025년 10월 9일

[논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models

본 논문은 확산 및 플로우 모델에서 인간 선호도에 맞춰 생성 모델을 정렬하는 기존 GRPO(Group Relative Policy Optimization) 방법론의 한계, 즉 희소하고 부정확한 보상 신호 및 불완전한 평가 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Models #Generative Models #Human Preference Alignment #Stochastic Differential Equations (SDE)#Reward Signal #Multi-Granularity

2025년 10월 9일

[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Optimization Modeling #Reflective Generation #Supervised Fine-tuning #Reinforcement Learning #Human-in-the-Loop #Code Generation #Domain Adaptation

2025년 10월 9일

[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation

본 논문은 현대 자연어 처리 모델의 평가 도구가 특히 훈련 중 평가 지표(in-training evaluation metrics) 에서 연산 병목 현상을 일으켜 연구 속도를 저해하는 문제를 해결하고자 합니다.

#Review #BLEU Score #GPU Acceleration #PyTorch #Natural Language Processing #Reinforcement Learning #Vectorization #In-Training Evaluation #N-gram Counting

2025년 10월 8일

[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Process Reward Models #Tabular Reasoning #Test-Time Scaling #Tool Integration #Reinforcement Learning #Supervised Fine-tuning #Large Language Models #Data Curation

2025년 10월 8일

[논문리뷰] Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations

이 논문은 기존 자동화된 학술 발표 자료 생성 방법론이 가진 제한된 스토리텔링, 낮은 미적 품질, 그리고 자체 조정 능력 부족 문제를 해결하고자 합니다.

#Review #Self-Improvement Agent #Academic Presentation #Aesthetic Evaluation #Reinforcement Learning #Multi-task Learning #Presentation Generation #LLM-based Agents #Human Feedback

2025년 10월 8일

[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.

#Review #DeepResearch Agents #Tool-integrated Reasoning #Reinforcement Learning #Information Retrieval #Information Synthesis #Multi-agent Self-play #Reward Shaping #LLM

2025년 10월 8일

[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation

감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.

#Review #Emotional Support Conversation #Cognitive Reasoning #Reinforcement Learning #Dialogue Generation #Natural Language Processing #Large Language Models #Psychological Support

2025년 10월 8일

[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization

본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Importance Sampling #Policy Optimization #PPO-Clip #Outcome-Supervised RL #Token Weighting #GRPO

2025년 10월 8일

[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning

본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.

#Review #Test-Time Curriculum #Reinforcement Learning #Large Language Models #Self-Curated Learning #Continual Learning #Reasoning Benchmarks #Adaptive Training

2025년 10월 7일

[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions

이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.

#Review #Large Language Models #Autoraters #Calibration #Preference Distributions #Reinforcement Learning #Supervised Fine-tuning #Positional Bias

2025년 10월 7일

[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.

#Review #Large Language Models #Pretraining #Supervised Fine-tuning #Reasoning Data #Data Allocation #Diversity #Quality #Reinforcement Learning

2025년 10월 7일

[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.

#Review #LLM Agents #Alignment #Self-Evolution #Behavioral Drift #Reinforcement Learning #Multi-Agent Systems #Alignment Tipping Process

2025년 10월 7일

[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey

이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Self-Improvement #Data Collection #Data Organization #Model Optimization #Survey #Reinforcement Learning #Direct Preference Optimization

2025년 10월 6일

[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.

#Review #Vision-Language-Action Models #Reinforcement Learning #World Models #Fine-tuning #Embodied AI #Robotics #Reward Design #Distribution Shift

2025년 10월 2일

[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning

소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.

#Review #Environment Setup #LLMs #Reinforcement Learning #Supervised Fine-tuning #On-device AI #Software Engineering #Verifiable Rewards

2025년 10월 2일

[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Parameter Dynamics #Rank-1 Dominance #Linear Dynamics #SVD #Model Acceleration #Predictability

2025년 10월 2일

[논문리뷰] GEM: A Gym for Agentic LLMs

대규모 언어 모델(LLM) 학습 패러다임이 정적 데이터셋에서 경험 기반 학습으로 전환됨에 따라, 에이전트가 복잡한 환경과 상호작용하며 기술을 습득할 수 있도록 돕는 것을 목표로 합니다.

#Review #Agentic LLMs #Reinforcement Learning #Environment Simulator #Multi-turn Interactions #Return Batch Normalization #Tool Integration #Benchmarking

2025년 10월 2일

[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.

#Review #Curriculum Learning #LLMs #Reasoning #Gradient Optimization #Reinforcement Learning #Bayesian Inference #Sample Efficiency

2025년 10월 2일

[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration

이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Exploration #Rollout Size #Verifiable Rewards #PPO #Mass Balance Equation

2025년 10월 2일

[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Vision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Self-Play #Reinforcement Learning #Gamification #Data Efficiency #Strategic Reasoning #Multimodal AI #Self-Improvement

2025년 10월 1일

[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.

#Review #LLM Hallucination #Truthfulness #Reinforcement Learning #Ternary Reward #Abstention #Knowledge Boundary #GRPO #RLHF

2025년 10월 1일

[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.

#Review #Vision-Language Models #Multimodal Reasoning #Reasoning #Visual Forgetting #Perceptual Grounding #Reinforcement Learning #Policy Optimization #Visual Anchors

2025년 10월 1일

[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning

대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #External Memory #Reinforcement Learning #Memory Management #Long-Context Understanding #Tool Learning #RAG #Memory Architecture

2025년 10월 1일

[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents

본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Information Seeking #Reinforcement Learning #Data Synthesis #Web Search Tools #Tool Use #Deep Research Agents

2025년 10월 1일

[논문리뷰] Humanline: Online Alignment as Perceptual Loss

본 논문은 온라인 정렬(예: GRPO )이 오프라인 정렬(예: DPO )보다 성능이 뛰어난 이유를 행동 경제학의 전망 이론(prospect theory) 에 기반한 인간 중심적 관점에서 설명하고자 합니다.

#Review #LLM Alignment #Online RLHF #Offline RLHF #Prospect Theory #Perceptual Loss #Human-Centric AI #Reinforcement Learning

2025년 10월 1일

[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.

#Review #GUI Agents #On-Device AI #Multimodal LLM #GUI Grounding #GUI Navigation #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data

2025년 10월 1일

[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Planning #Policy Gradient #Q-learning #Supervised Fine-Tuning #Diversity Collapse #Reward Hacking

2025년 10월 1일

[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Process-Supervised RL #Large Language Models #Reasoning Models #Attention Mechanism #Efficient Exploration #Adaptive Sampling #Off-Policy Training

2025년 10월 1일