#Reinforcement Learning (RL)

91개의 포스트

[논문리뷰] The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

본 논문은 large language model (LLM)이 long-horizon agentic workflow로 전환됨에 따라 발생하는 efficiency 및 cost bottleneck 문제와 intrinsically complex, high-stakes task 해결의 어려움을 다룹니다.

#Review #Mixture-of-Experts (MoE)#Mini Activations #Agentic AI #Self-Evolution #Reinforcement Learning (RL)#Multi-Token Prediction (MTP)

2026년 5월 26일

[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.

#Review #Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning #Low-level Actions #FAST tokenization #Robotics

2026년 3월 23일

[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Distilled autoregressive (AR) video models는 efficient streaming generation을 가능하게 하지만, 종종 human visual preferences와 misalign되어 artifacts나 unnatural motion dynamics를 보입니다.

#Review #Video Generation #Distilled Autoregressive Models #Reinforcement Learning (RL)#Human Preferences #Streaming Generation #Forward-Process RL #Reward Hacking #Temporal Consistency

2026년 3월 22일

[논문리뷰] Video-CoE: Reinforcing Video Event Prediction via Chain of Events

비디오 태스크에 대한 MLLM 애플리케이션의 발전에도 불구하고, VEP 는 상대적으로 미개척 상태로 남아있습니다.

#Review #Video Event Prediction (VEP)#Multimodal Large Language Models (MLLMs)#Chain of Events (CoE)#Logical Reasoning #Visual Grounding #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)

2026년 3월 18일

[논문리뷰] TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

물리 기반 인간형 제어는 사실적이고 고성능의 단일 에이전트(Single-agent) 행동을 가능하게 하는 데 상당한 발전을 이루었지만, 이를 협동적인 Human-Object Interaction (HOI) 으로 확장하는 것은 여전히 어려운 과제입니다.

#Review #Human-Object Interaction (HOI)#Reinforcement Learning (RL)#Transformer-based Policy #Adversarial Motion Prior (AMP)#Decentralized Policy #Multi-agent Systems #Scalable Coordination

2026년 3월 12일

[논문리뷰] OpenClaw-RL: Train Any Agent Simply by Talking

본 논문은 AI 에이전트가 사용자 피드백, 툴 실행 결과, GUI 상태 변화 등 '다음 상태 신호(next-state signals)' 를 통해 실시간으로 지속적인 학습을 수행하도록 하는 프레임워크를 제안합니다.

#Review #Reinforcement Learning (RL)#Agentic AI #Online Learning #Next-State Signals #Process Reward Models (PRM)#On-Policy Distillation (OPD)#Multi-Modal Agents

2026년 3월 11일

[논문리뷰] Fish Audio S2 Technical Report

본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multi-speaker #Multi-turn #Instruction Following #Dual-Autoregressive #Reinforcement Learning (RL)#Data Pipeline #SGLang

2026년 3월 10일

[논문리뷰] Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

금융 도메인 LLM 배포의 어려움(밀도 높은 전문 용어, 엄격한 수치 추론, 낮은 오류 허용치)을 해결하고, 특히 데이터 품질 과 훈련 데이터의 난이도/검증 가능성 프로필 이 특수 수직 도메인에서의 LLM 성능에 미치는 영향을 체계적으로 이해하는 것을 목표로 합니다.

#Review #Financial LLMs #Data-Centric AI #Distillation #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Difficulty-Aware Training #Data Quality

2026년 3월 9일

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Flow-based Models #Vision-Language-Action (VLA) Models #Online Learning #Stochastic Differential Equation (SDE)#Contrastive Learning #Embodied AI #Robotics

2026년 3월 8일

[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought

본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Model Controllability #AI Safety #Monitorability #Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite

2026년 3월 8일

[논문리뷰] GeoWorld: Geometric World Models

이 논문은 기존 에너지 기반 예측 월드 모델이 유클리드 공간 에서 잠재 표현을 학습하여 기하학적 및 계층적 구조를 무시 하고, 장기 예측 시 성능이 빠르게 저하되는 문제를 해결하고자 합니다.

#Review #Geometric World Models #Hyperbolic Geometry #Joint-Embedding Predictive Architectures (JEPA)#Reinforcement Learning (RL)#Multi-step Planning #Visual Planning #Energy-Based Models

2026년 2월 26일

[논문리뷰] SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

본 연구는 시계열 데이터에 대한 진단 추론에서 발생하는 문제를 해결하는 것을 목표로 합니다. 일반 추론 거대 언어 모델(GRLMs)의 강력한 추론 능력과 시계열 전문 LLM(TSLMs)의 도메인 특화 지식 간의 격차를 해소하여, 복잡한 시계열 패턴에 대한 강력하고 문맥 인식적인 진단 통찰력을 제공하고자 합니다.

#Review #Time-Series Reasoning #Knowledge Injection #Large Language Models (LLMs)#Reinforcement Learning (RL)#Diagnostic AI #Multimodal AI #SenTSR-Bench

2026년 2월 23일

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.

#Review #Multimodal Models #Generative AI #Understanding #Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation #Optimization Dilemma #Image Editing

2026년 2월 17일

[논문리뷰] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

본 논문은 11B 활성화 파라미터 를 가진 196B Mixture-of-Experts (MoE) 모델 인 Step 3.5 Flash 를 소개하며, 첨단 에이전트 지능과 컴퓨팅 효율성 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparse Models #Inference Efficiency #Hybrid Attention #Multi-Token Prediction (MTP)#Reinforcement Learning (RL)#Agentic AI #Long-Context Understanding

2026년 2월 11일

[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.

#Review #Large Language Models (LLMs)#Query Understanding #Multi-Task Learning #Generative AI #Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu #Search Engines

2026년 2월 11일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

본 논문은 기존 언어 모델 기반 심층 연구 보고서 생성 시스템들이 겪는 한계를 극복하는 것을 목표로 합니다. 특히, 정적 계획에 의존하여 통찰력에 제한이 있고, 배포 및 데이터 보안 문제로 인해 대규모의 독점 모델에 의존하는 경향을 해소하고자 합니다.

#Review #Deep Research #Agentic Systems #Writing As Reasoning Policy (WARP)#Outline Generation #Iterative Refinement #Reinforcement Learning (RL)#Small Language Models

2026년 2월 9일

[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey

본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.

#Review #GUI Grounding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering #UI Automation #Perception-intensive AI

2026년 2월 8일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better models

본 논문은 대규모 언어 모델(LLM)의 생성 안전성, 사실성 및 전반적인 품질 문제를 사전 훈련 단계에서부터 해결하는 것을 목표로 합니다.

#Review #Self-Improving Pretraining #Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control #Factuality #Safety #Post-trained Models #Pretraining Data Augmentation

2026년 1월 29일

[논문리뷰] Beyond Imitation: Reinforcement Learning for Active Latent Planning

이 논문은 기존의 모방 기반 잠재 추론 방식이 여러 동등한 추론 경로 중 하나만을 학습하여 성능 저하 및 훈련-테스트 간 격차를 초래하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Reasoning #Reinforcement Learning (RL)#Variational Autoencoder (VAE)#Active Planning #Numerical Reasoning #Coherence Reward

2026년 1월 29일

[논문리뷰] LongCat-Flash-Thinking-2601 Technical Report

본 논문은 장기적인 상호작용과 추론이 요구되는 에이전트 태스크 에서 기존 모델들의 한계를 극복하고, 뛰어난 에이전트 추론 능력을 가진 오픈소스 MoE(Mixture-of-Experts) 대규모 언어 모델인 LongCat-Flash-Thinking-2601 을 개발하는 것을 목표로 합니다.

#Review #Agentic AI #Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Reinforcement Learning (RL)#Context Management #Scalable Training #Test-Time Reasoning #Open-Source Model

2026년 1월 25일

[논문리뷰] Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

LLM의 RL 기반 학습에서 발생하는 탐색 붕괴(exploration collapse) 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Exploration Collapse #Strategy-level Diversity #Uniqueness-Aware Rewarding #Creative Problem Solving #Pass@k

2026년 1월 15일

[논문리뷰] X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

본 논문은 경쟁 프로그래밍(Competitive Programming)을 위한 코드 LLM(Large Language Model)이 실제 데이터의 희소성으로 인해 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Competitive Programming #Code LLMs #Synthetic Data Generation #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Dual Verification #Scaling Laws #SynthSmith

2026년 1월 12일

[논문리뷰] ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

LLM 기반의 Tool-Integrated Reasoning (TIR) 에이전트가 정확도에만 집중하여 발생하는 비효율적인 행동 패턴(예: 중복되거나 불충분한 도구 호출) 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#Agent Behavior Calibration #Reinforcement Learning (RL)#Self-Evolving Data Flywheel #Action Space Exploration #Behavioral Efficiency

2026년 1월 12일

[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data

본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.

#Review #Self-Evolution #Search Agents #Large Language Models (LLMs)#Data-Free Learning #Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

본 논문은 장기적인 인간-에이전트 상호작용에서 LLM 기반 에이전트가 겪는 메모리 앵커링(Memory Anchoring) 문제(과거 상호작용에 과도하게 갇히는 현상)와 메모리 활용 부족 문제를 해결하고자 합니다.

#Review #Long-Term Human-Agent Interaction #Controllable Memory #Memory Anchoring #Large Language Models (LLMs)#Personalization #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Memory Dependence

2026년 1월 12일

[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

비디오 이해 태스크에서 Chain-of-Thought (CoT) 추론의 필요성과 이점을 재평가하고, 기존 CoT 방식이 때로는 직접 답변보다 성능이 낮고 비효율적임을 지적합니다. 이를 바탕으로, 필요한 경우에만 추론을 수행하여 효율성과 정확성을 동시에 개선하는 적응형 비디오 추론 프레임워크 를 개발하는 것이 목표입니다.

#Review #Video Understanding #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Adaptive Reasoning #Early Exit #Multimodal LLM #Video QA #Temporal Grounding

2026년 1월 8일

[논문리뷰] Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

본 논문은 Supervised Fine-Tuning (SFT) 과정에서 발생하는 catastrophic forgetting 의 근본 원인을 분석하고, 이를 완화하기 위한 새로운 방법론을 제시합니다.

#Review #Supervised Fine-Tuning (SFT)#Catastrophic Forgetting #Entropy-Adaptive Fine-Tuning (EAFT)#Large Language Models (LLMs)#Domain Adaptation #Reinforcement Learning (RL)#Confident Conflicts

2026년 1월 7일

[논문리뷰] K-EXAONE Technical Report

LG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.

#Review #Multilingual Language Model #Mixture-of-Experts (MoE)#Long Context #AI Safety #Korean AI #Foundation Model #Reinforcement Learning (RL)

2026년 1월 5일

[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Reasoning #Small Language Models (SLMs)#Hybrid Architecture #Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf #Computational Efficiency

2026년 1월 5일

[논문리뷰] Scaling Open-Ended Reasoning to Predict the Future

본 연구는 불확실한 미래에 대한 개방형 예측 질문에 대해 언어 모델(LLM)이 정확하고 신뢰할 수 있는 예측을 할 수 있도록 훈련하는 것을 목표로 합니다.

#Review #Language Models #Forecasting #Open-Ended Reasoning #Reinforcement Learning (RL)#Data Generation #Calibration #Retrieval-Augmented Generation (RAG)#Future Prediction

2025년 12월 31일

[논문리뷰] Training AI Co-Scientists Using Rubric Rewards

언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.

#Review #AI Co-Scientists #Research Plan Generation #Reinforcement Learning (RL)#Self-Grading #Rubric Rewards #Language Models (LLMs)#Scientific Discovery

2025년 12월 29일

[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Vision-Language Models (VLMs)#Perceptual Shaping #KL-Divergence #Chart Understanding #Data Augmentation #Reinforcement Learning (RL)#GRPO

2025년 12월 28일

[논문리뷰] Multi-hop Reasoning via Early Knowledge Alignment

본 논문은 복잡한 다중 홉(multi-hop) 질문을 처리하는 반복적 RAG(Iterative RAG) 시스템 의 비효율적인 검색 및 추론 문제, 특히 초기 계획 단계에서의 '계획 실패(plan failure)'를 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Multi-hop Reasoning #Reinforcement Learning (RL)#Knowledge Alignment #Iterative RAG #Entropy Analysis #Plan Failure

2025년 12월 24일

[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.

#Review #Reinforcement Learning (RL)#LLM Agents #Skill Library #Self-Improvement #Sequential Rollout #AppWorld dataset #GRPO

2025년 12월 23일

[논문리뷰] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

본 논문은 대규모 (비전) 언어 모델(LLMs/VLMs)의 추론 및 강화 학습(RL) 훈련 과정에서 발생하는 탐색 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Latent Variable Models #Variational Autoencoder (VAE)#Reinforcement Learning (RL)#Exploration #Large Language Models (LLMs)#Vision-Language Models (VLMs)#Controllable Generation #Reasoning Strategies

2025년 12월 22일

[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

본 논문은 Multimodal Large Language Models (MLLMs)가 실제 환경의 극심한 시각적 열화(visual degradations) 조건에서 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Degradation #Robustness #Reasoning Chains #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning #Interpretability

2025년 12월 21일

[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.

#Review #AI-Generated Video Detection #Multimodal Large Language Model (MLLM)#Artifact Reasoning #Explainable AI #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics

2025년 12월 17일

[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection

본 논문은 정적인 이미지에 국한된 기존 Vision-Language Models (VLMs) 의 Visual Question Answering (VQA) 한계를 극복하고, 앰뷸러토리 비전 능력을 갖춘 에이전트가 더 유익한 시점을 능동적으로 선택하도록 학습시키는 것을 목표로 합니다.

#Review #Active Perception #Vision-Language Models (VLMs)#Embodied AI #View Selection #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Visual Question Answering (VQA)#3D Environments

2025년 12월 15일

[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Pre-training #Mid-training #Reasoning LMs #Generalization #Synthetic Reasoning Tasks #Process-level Supervision

2025년 12월 8일

[논문리뷰] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

본 논문은 기존 단일 턴(single-turn) 이미지 편집 모델의 한계, 즉 내재된 무작위성과 숙고 부족으로 인한 낮은 명령어-추종(instruction-following) 성능을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Iterative Reasoning #Multimodal Large Language Model (MLLM)#Reinforcement Learning (RL)#Instruction Following #Critique-Refine-Repeat Cycle #Think-while-Edit

2025년 12월 7일

[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO #Training Stability #Lazy Likelihood Displacement (LLD)#Regularization #Search-R1

2025년 12월 4일

[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning #Generalization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT #Maze Solving

2025년 12월 2일

[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning

기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning #Object Grounding #Object Detection #Structured Output

2025년 12월 2일

[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient #REINFORCE #Mixture-of-Experts (MoE)#Training Stability #Importance Sampling #Routing Replay #Off-policy Learning

2025년 12월 1일

[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#Proof Verification #Self-Verification #Reinforcement Learning (RL)#Theorem Proving #Meta-Verification #Iterative Refinement

2025년 11월 30일

[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language

본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.

#Review #Latent Visual Reasoning #Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking

2025년 11월 26일

[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Mobile Robotics #Quadruped Robots #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI #Multimodal Perception

2025년 11월 26일

[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

본 연구는 VLM이 다단계 시각적 상호작용 및 효과적인 도구 통합 추론에서 겪는 한계를 해결하고자 합니다. 특히, 도구 선택, 호출 및 조율 능력이 부족한 기존 VLM의 문제를 극복하고, 확장 가능한 훈련 환경과 에이전트 학습 전략을 통해 VLM의 도구 통합 시각적 추론 능력 을 체계적으로 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI #VQA #Training Environment #Behavioral Cloning #Policy Optimization

2025년 11월 25일

[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.

#Review #Visual Generation #Textual Reasoning #Interleaving #Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)

2025년 11월 20일

[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

VLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL #World Models #Policy Optimization #Robotics #Sample Efficiency #Self-correction

2025년 11월 12일

[논문리뷰] LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

기존 LLM 툴 학습의 정적 합성 데이터 파이프라인 이 모델의 약점에 적응하지 못하고 노이즈 있는 레이블을 유지하여 훈련 효율성을 저해하는 문제를 해결합니다.

#Review #Large Language Models (LLMs)#Tool Learning #Data Generation #Model Training #Closed-Loop Framework #Reinforcement Learning (RL)#Data Refinement #Self-Correction

2025년 11월 12일

[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.

#Review #Small Language Models #Reasoning #Diversity Optimization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning #Code Generation

2025년 11월 11일

[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

본 연구는 RL 후처리 훈련이 기존 VLM의 내재적 추론 능력 경계 를, 특히 시각 중심의 공간 추론 작업에서 확장할 수 있는지 탐색하는 것을 목표로 합니다. 이를 위해, 정밀하게 난이도를 제어할 수 있는 프레임워크인 Ariadne 를 도입하여 VLM의 추론 행동을 체계적으로 조사하고 한계를 확장하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Spatial Reasoning #Controllable Framework #RLVR #GRPO #Maze Navigation #Generalization Boundaries

2025년 11월 10일

[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

본 논문은 π0 및 π0.5와 같은 플로우 기반(Flow-based) VLA (Vision-Language-Action) 모델 에 대규모 RL을 적용할 때 발생하는 액션 로그-우도(log-likelihood) 계산의 난해함 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action Models (VLAs)#Flow-based Models #Policy Optimization #Robotics #Flow Matching #SDE #MDP

2025년 11월 9일

[논문리뷰] Residual Off-Policy RL for Finetuning Behavior Cloning Policies

본 논문은 행동 복제(BC) 기반 정책의 한계(데이터 품질, 수동 데이터 수집, 성능 포화)와 실제 로봇에서의 직접적인 강화 학습(RL)의 어려움(샘플 비효율성, 안전성, 희소 보상)을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Behavior Cloning (BC)#Residual Learning #Off-Policy RL #Robot Manipulation #Real-World Robotics #High-DoF Systems #Sample Efficiency

2025년 9월 26일

[논문리뷰] Logics-Parsing Technical Report

본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis #Reading Order #Supervised Fine-Tuning (SFT)#HTML Annotation #Benchmarking

2025년 9월 25일

[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Geometric Reasoning #Visual Perception #Reinforcement Learning (RL)#Two-stage Training #GeoPQA Benchmark #Perceptual Bottleneck

2025년 9월 23일

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning

논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.

#Review #Context Fidelity #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination #Question Answering #In-context Retrieval #Curriculum Learning

2025년 9월 18일

[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Vision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.

#Review #Visual Programmability #Code-as-Thought (CaT)#Chart Understanding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning #Dual-Reward System #Multimodal AI

2025년 9월 12일

[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Robotic Manipulation #Data Scarcity #Generalization #Sim-to-Real Transfer #Online RL #Long-Horizon Planning

2025년 9월 12일

[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.

#Review #Web Agents #Long-Horizon Reasoning #Large Language Models (LLMs)#Data Generation #Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation #Information Retrieval

2025년 9월 9일

[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Step-Provers #Reinforcement Learning (RL)#Off-Policy RL #Multi-Agent Systems #Tree Search #Automated Theorem Proving (ATP)#Formal Mathematics #AlphaZero

2025년 9월 9일

[논문리뷰] Bootstrapping Task Spaces for Self-Improvement

본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement #Autocurriculum #Task-Space Exploration #Inference-Time Iteration #Policy Optimization

2025년 9월 8일

[논문리뷰] Towards a Unified View of Large Language Model Post-Training

본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Post-Training #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient #Unified Framework #Hybrid Algorithms #Bias-Variance Tradeoff

2025년 9월 5일

[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and Planning

본 논문은 일반ist 로봇이 복잡한 장기 작업을 추론하고 자연스러운 인간 상호작용에 참여할 수 있도록 단일 비전-언어 아키텍처 내에서 로봇 추론, 태스크 플래닝, 자연어 상호작용을 통합하는 Robix 모델을 제안합니다.

#Review #Robot Learning #Vision-Language Models (VLMs)#Embodied AI #Human-Robot Interaction (HRI)#Task Planning #Reinforcement Learning (RL)#Chain-of-Thought (CoT) Reasoning #Robotics

2025년 9월 4일

[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

본 논문은 critic 모델이 단순히 응답을 평가하는 것을 넘어 강력한 정책 모델로서 생성 능력까지 갖출 수 있다는 통념에 도전합니다. 최종 목표는 선호도 기반 critic 데이터를 활용한 강화 학습(RL) 을 통해, 평가와 생성 두 가지 역할을 동시에 탁월하게 수행하는 단일 멀티모달 모델을 개발하는 것입니다.

#Review #Vision-Language Models (VLMs)#Critic Models #Policy Models #Reinforcement Learning (RL)#Self-Criticism #Multimodal Reasoning #Preference Learning #Generative Models

2025년 9월 3일

[논문리뷰] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

본 논문은 복잡한 추론 문제에서 뛰어난 성능을 보이는 기존 MLLM의 step-by-step 사고(thinking) 과정이 단순 문제에서는 불필요한 연산 오버헤드를 유발하는 비효율성을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Auto-Thinking #Reinforcement Learning (RL)#Bi-mode Annealing #Bi-mode Policy Optimization (BPO)#General-Purpose AI #Reasoning #Efficiency

2025년 9월 1일

[논문리뷰] Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

본 논문은 대규모 언어 모델(LLMs)의 효율적인 도구 사용(tool use) 학습을 위한 강화 학습(RL) 프레임워크 부재 문제를 해결하고자 합니다. 특히, 안정적인 훈련 환경 구축의 어려움과 검증 가능한 보상 메커니즘의 부재가 LLM의 도구 사용 능력 발전을 저해하는 핵심 과제로 지적됩니다.

#Review #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#Automated Environment Generation #Feedback-Driven Training #Reward Mechanism #Contextual Understanding

2025년 8월 13일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일

[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization #Reward Rectification #Dynamic Fine-Tuning (DFT)#LLM #Policy Gradient #Mathematical Reasoning

2025년 8월 8일

[논문리뷰] Tool-integrated Reinforcement Learning for Repo Deep Search

소프트웨어 이슈 설명과 실제 결함 코드 사이의 의미론적 간극 및 다중 홉 추론 으로 인해 발생하는 이슈 로컬라이제이션(결함 코드 위치 식별)의 어려움을 해결하는 것이 목표입니다. 특히, LLM 기반 에이전트가 저장소 검색 도구를 효과적으로 활용하여 이슈 로컬라이제이션 을 수행하는 능력을 강화하고자 합니다.

#Review #Issue Localization #Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Tool-integrated Agents #Software Engineering #Code Search

2025년 8월 6일

[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree

기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.

#Review #Tool-Use LLM #Reinforcement Learning (RL)#Policy Optimization #Rewarded Tree #Trajectory Optimization #Agentic System #Dynamic Tool Call

2025년 10월 31일

[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.

#Review #Medical VQA #Large Multimodal Models (LMMs)#Data Synthesis #Generator-Verifier Framework #Rubric-Guided #Reinforcement Learning (RL)#Context-Aware

2025년 10월 31일

[논문리뷰] Evolving Diagnostic Agents in a Virtual Clinical Environment

본 논문은 정적인 지시 튜닝(instruction-tuned) 모델의 한계를 넘어, 가상 임상 환경 에서 강화 학습(RL) 을 통해 다중 턴 진단 과정을 효과적으로 관리하고, 적응적으로 검사를 선택하며, 최종 진단을 내릴 수 있는 진단 에이전트(diagnostic agents) 를 훈련하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Diagnostic Agents #Reinforcement Learning (RL)#Virtual Clinical Environment #Medical AI #Multi-turn Diagnosis #EHR (Electronic Health Records)

2025년 10월 30일

[논문리뷰] Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

본 논문은 대규모 언어 모델(LLM) 에이전트의 성능 향상을 위해 다중 에이전트 시스템(MAS) 과 강화 학습(RL) 을 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Multi-Agent Systems (MAS)#On-Policy RL #Collaborative AI #Agentic LLMs #Group-based Optimization

2025년 10월 16일

[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Mathematical Reasoning #Benchmark #Large Language Models (LLMs)#Exploration #Boundary Expansion #MATH-Beyond

2025년 10월 16일

[논문리뷰] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

본 논문은 소규모 Vision-Language Model(VLM)이 복잡한 Embodied AI 태스크를 수행하는 데 필요한 지식과 기술 부족 문제를 해결하고자 합니다.

#Review #Embodied AI #Vision Language Models (VLMs)#Reinforcement Learning (RL)#Prior Learning #Supervised Fine-tuning (SFT)#Embodied Agents

2025년 10월 15일

[논문리뷰] Which Heads Matter for Reasoning? RL-Guided KV Cache Compression

추론(reasoning) 기반 대규모 언어 모델(LLM)은 긴 CoT(Chain-of-Thought) 생성을 통해 막대한 KV(Key-Value) 캐시 오버헤드를 발생시킵니다.

#Review #KV Cache Compression #Large Language Models (LLMs)#Reinforcement Learning (RL)#Reasoning Models #Attention Heads #Chain-of-Thought (CoT)#Memory Efficiency

2025년 10월 13일

[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

대규모 언어 모델(LLM)이 모방 학습의 한계(훈련-추론 격차, 견고한 추론 능력 부족)를 극복하고 강화 학습(RL)을 통해 더 강력한 능력을 얻도록 하는 것이 목표입니다. 하지만 기존 RL 데이터셋은 웹 스케일 사전 훈련 코퍼스에 비해 규모와 다양성 면에서 현저히 작다는 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline #Web-scale Data #Question-Answering (QA)#Data Generation #Data Diversity #Data Efficiency

2025년 10월 13일

[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language Models

이 논문은 기존의 Vision-Language Models (VLMs) 이 훈련 후 정적인 상태로 남아 레이블링된 데이터 없이 환경과 상호작용하며 추론 시점에 즉시 적응할 수 없다는 한계를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Test-Time Adaptation #Unsupervised Learning #Image Recognition #Visual Question Answering (VQA)#Group Relative Policy Optimization (GRPO)#Entropy Regularization

2025년 10월 9일

[논문리뷰] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

이 논문은 기존의 도구 증강 LLM 접근 방식이 긴 추론 과정과 다양한 도구 사용에서 확장성이 떨어지고 새로운 시나리오에 대한 일반화 능력이 약하다는 문제를 제기합니다.

#Review #Agentic Systems #Large Language Models (LLMs)#Tool Use #Reinforcement Learning (RL)#On-policy Optimization #Flow-based Group Refined Policy Optimization (Flow-GRPO)#Multi-turn Reasoning

2025년 10월 8일

[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Post-training #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)

2025년 10월 7일

[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

LLM의 추론 태스크를 위한 강화 학습(RL) 훈련에서 고정 및 균일한 응답 샘플링 으로 인해 발생하는 불안정한 그래디언트 추정 과 '신호 붕괴(signal collapse)' 문제를 해결하는 것이 주된 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Adaptive Sampling #Policy Gradient #Reward Optimization #Signal Collapse #Variance Reduction

2025년 10월 7일

[논문리뷰] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

본 논문은 GUI 그라운딩(grounding) 태스크에서 자연어 명령어의 다양성과 품질 이 모델 성능에 미치는 영향을 간과했던 기존 연구의 한계를 극복하고자 합니다. 명령어에 존재하는 23.3%의 오류율 을 개선하고, 추론 시 명령어 다양성 을 활용하여 최대 76%의 상대적 성능 향상 을 목표로 합니다.

#Review #GUI Grounding #Natural Language Instructions #Multi-Perspective Reasoning #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Policy Collapse Mitigation #GUI Agents

2025년 10월 27일

[논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think

본 논문은 LLM의 RL-사후 훈련(RL-posttraining)이 진정으로 새로운 추론 능력을 부여하는지, 아니면 기본 모델의 기존 능력을 '선명하게' 하는 것인지에 대한 질문에 답하고자 합니다.

#Review #LLMs #MCMC #Sampling #Reasoning #Distribution Sharpening #Reinforcement Learning (RL)#Inference-time Optimization #Training-free

2025년 10월 27일

[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#Prompt Injection #Adversarial Attack #Reasoning Distraction #Chain-of-Thought #Robustness #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)

2025년 10월 21일

[논문리뷰] Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

본 연구는 LLM의 RL 기반 자기 개선 과정에서 발생하는 높은 연산 비용과 비효율적인 탐색 예산 할당 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Exploration Budget Allocation #Knapsack Problem #Group Relative Policy Optimization (GRPO)#Mathematical Reasoning #Resource Optimization

2025년 10월 2일

[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.

#Review #Mechanistic Interpretability #Attention Heads #Post-Training #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis #Reasoning Models #Transformer Architecture

2025년 10월 1일