#Policy Optimization

94개의 포스트

[논문리뷰] Not only where, But when: Temporal Scheduling for RLVR

본 논문은 기존 RLVR 방법론에서 사용되는 Stagnant Credit Allocation 기법들이 가지는 최적화의 경직성 문제를 해결하고자 합니다. 대다수의 기존 연구는 특정 토큰을 강조하는 기준을 학습 내내 일관되게 적용하여, 시퀀스 내에 존재하는 이질적인 정책 행동(Reasoning scaffolding vs.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Large Language Models (LLMs)#Temporal Scheduling #Credit Allocation #Trajectory Percentile Score (TP-Score)#Policy Optimization

2026년 6월 1일

[논문리뷰] Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

본 논문은 기존의 ASR 기술이 깨끗한 환경에서는 뛰어난 성능을 보이지만, 실제 환경의 복합적인 음향 왜곡(noise, reverberation, far-field, obstruction 등) 속에서는 WER이 급격히 상승하고 할루시네이션(hallucination)이나 문장 누락이 발생하는 'acoustic robustness bottleneck'을 해결하고자 한다.

#Review #ASR-in-the-wild #Compound Acoustic Simulation #Acoustic-to-Semantic #Progressive Supervised Fine-Tuning #Policy Optimization #Robust Speech Recognition #Acoustic Robustness Bottleneck

2026년 5월 20일

[논문리뷰] CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

본 논문은 RLVR 환경에서 기존 정책 최적화 방식들이 겪는 불균일한 credit assignment 문제를 해결하기 위해 CEPO를 제안합니다. 기존의 GRPO와 같은 방식은 전체 시퀀스에 동일한 보상을 부여하여 결정적 추론 단계와 단순 서술 토큰을 구분하지 못하는 한계가 있습니다.

#Review #RLVR #Credit Assignment #Self-Distillation #Contrastive Learning #Policy Optimization #Information Leakage

2026년 5월 19일

[논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

기존의 비디오 생성 모델 정렬 기법들은 주로 노이즈 기반의 탐색(exploration)이나 SDE 기반의 surrogate policy를 사용하여, 결정론적(deterministic) ODEdynamics로 작동하는 distilled AR 모델의 특성과 상충하는 문제를 야기합니다 .

#Review #Autoregressive Video Generation #Reinforcement Learning #Policy Optimization #Flow Matching #KV Caching #Causal-Semantic Exploration #Trajectory Velocity Energy

2026년 5월 18일

[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.

#Review #Reinforcement Learning #Large Language Models #Verifiable Rewards #Policy Optimization #Error Correction #Reasoning Capability

2026년 5월 17일

[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.

#Review #RLVR #Policy Optimization #Listwise #Target-Projection #Large Language Models #Reasoning #Gibbs Target

2026년 5월 10일

[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Adaptive Entropy Modulation #Large Language Models #Exploration-Exploitation Trade-off #Surprisal #Policy Optimization

2026년 5월 10일

[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .

#Review #Uniform Discrete Diffusion Model #Reinforcement Learning #GRPO #Text-to-Image Generation #Policy Optimization #Distribution Alignment

2026년 4월 21일

[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.

#Review #Agentic Search #Reinforcement Learning #Hierarchical Experience #Policy Optimization #Contrastive Distillation #Self-Reflection

2026년 4월 9일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.

#Review #RLVR #GRPO #SDPO #Sample Routing #Policy Optimization #Self-Distillation

2026년 4월 6일

[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.

#Review #Reinforcement Learning #Large Language Models #Future-KL #Policy Optimization #GRPO #Chain-of-Thought #Credit Assignment

2026년 3월 31일

[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents

본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Credit Assignment #Hindsight Credit Assignment #Policy Optimization #Sparse Rewards #Long-Horizon Tasks #Generative Verification

2026년 3월 11일

[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization #Large Language Models (LLMs)#Generalization #Robustness #Reasoning Tasks

2026년 3월 11일

[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

RLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Calibration #Over-confidence #Decoupled Optimization #Verifiable Rewards #Policy Optimization #Expected Calibration Error

2026년 3월 10일

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Reinforcement Learning #Trust Region #Policy Optimization #Ratio Clipping #f-divergence #Entropy Regularization #Exploration #BandPO

2026년 3월 8일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents

본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Information Gain #Credit Assignment #Multi-turn Interaction #User-centric Agents #Counterfactual Reasoning

2026년 3월 3일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[논문리뷰] DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

LLM 추론을 위한 RLVR 훈련에서 발생하는 제한적인 탐색(limited exploration) 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 불충분한 로컬 무작위성이나 단일 스케일 다양성 조절에 그쳐 정책이 소수의 추론 패턴으로 수렴하고 깊은 탐색이 조기에 중단되는 문제를 극복하고자 합니다.

#Review #Large Language Models (LLM)#Reinforcement Learning with Verifiers (RLVR)#Exploration #Diversity Regularization #Dual-Scale #Reasoning #Policy Optimization

2026년 2월 23일

[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Training Stability #Policy Optimization #Spurious Tokens #Entropy Regularization #Gradient Modulation

2026년 2월 17일

[논문리뷰] Experiential Reinforcement Learning

언어 모델(LMs)이 희소하고 지연된 환경 피드백으로부터 학습하는 과정에서 발생하는 비효율성과 불안정성을 해결하는 것이 주요 목표입니다.

#Review #Reinforcement Learning #Language Models #Self-Reflection #Experiential Learning #Policy Optimization #Distillation #Agentic Reasoning

2026년 2월 16일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일

[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

RLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Reward Models #Diversity Preservation #Focal Loss #Group Sampling #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Multi-Task Learning #Reinforcement Learning #Policy Optimization #GRPO #Task Reweighting #Robustness #Reasoning Benchmarks

2026년 2월 5일

[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards #LLMs #Policy Optimization #Response Length Bias #Sequence-level Clipping #Length-Unbiased Optimization #Multimodal Reasoning

2026년 2월 5일

[논문리뷰] LatentMem: Customizing Latent Memory for Multi-Agent Systems

본 논문은 LLM 기반 멀티 에이전트 시스템(MAS)의 메모리 설계가 겪는 두 가지 근본적인 문제, 즉 (i) 역할 인지적 맞춤화 부재로 인한 메모리 동질화 와 (ii) 과도하게 세분화된 메모리 항목으로 인한 정보 과부하 를 해결하고자 합니다.

#Review #Multi-Agent Systems #LLM Memory #Latent Representation #Role-Aware #Token Efficiency #Policy Optimization #Continual Adaptation

2026년 2월 5일

[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Sparse Rewards #Self-Hinting #Policy Optimization #Adaptive Curriculum #On-Policy Training

2026년 2월 4일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

대규모 언어 모델(LLM) 추론을 위한 RLVR (Reinforcement Learning with Verifiable Rewards) 의 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Instruction Purification #Interference Tokens #Sample Efficiency #Policy Optimization #Verifiable Rewards

2026년 2월 3일

[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.

#Review #Agentic AI #Reinforcement Learning #Long-Horizon Tasks #Dynamic Branching #Strategic Exploration #LLM Agents #Sample Efficiency #Policy Optimization

2026년 1월 28일

[논문리뷰] Reinforcement Learning via Self-Distillation

대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.

#Review #Reinforcement Learning #Self-Distillation #Large Language Models (LLMs)#Rich Feedback #Credit Assignment #Policy Optimization #RLHF #Code Generation #Test-Time Training

2026년 1월 28일

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일

[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-reward RL #Policy Optimization #Reward Normalization #GRPO #GDPO #LLMs #Training Stability

2026년 1월 8일

[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Agentic RL #Multi-turn Tasks #Policy Optimization #Tree Search #Credit Assignment #Exploration Diversity #LLM Agents

2026년 1월 8일

[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.

#Review #Agentic Learning Ecosystem #Large Language Models #Reinforcement Learning #Agentic Crafting #Tool Use #ROME Model #Policy Optimization #Sandbox Environment

2025년 12월 31일

[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Interpretability #Transformer #Internal Policy #Entropy Analysis

2025년 12월 23일

[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Parallel Reasoning #Self-Distilled Reinforcement Learning #Policy Optimization #Inference Acceleration #Structured Output #Agentic Reasoning

2025년 12월 8일

[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Curriculum Learning #Advantage Function #Reasoning Tasks #Multimodal AI #Policy Optimization #Generalization

2025년 12월 7일

[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Policy Optimization #Trust Region #Entropy Clipping #Large Language Models #Training Stability #Distributional Shift

2025년 12월 7일

[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.

#Review #Vision-Language Navigation #Large Vision-Language Models #Visual Prompt #Reinforcement Fine-Tuning #Policy Optimization #Embodied AI #Spatial Reasoning #Perception Errors

2025년 12월 4일

[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Agentic Reasoning #Tool Use #Reinforcement Learning #Faithfulness Evaluation #Policy Optimization #Visual Search #Code Generation

2025년 12월 2일

[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents

GUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.

#Review #GUI Agents #Reinforcement Learning #Context-aware #History Compression #Policy Optimization #Multimodal LLM #Dynamic Sampling

2025년 12월 1일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일

[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

본 연구는 VLM이 다단계 시각적 상호작용 및 효과적인 도구 통합 추론에서 겪는 한계를 해결하고자 합니다. 특히, 도구 선택, 호출 및 조율 능력이 부족한 기존 VLM의 문제를 극복하고, 확장 가능한 훈련 환경과 에이전트 학습 전략을 통해 VLM의 도구 통합 시각적 추론 능력 을 체계적으로 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI #VQA #Training Environment #Behavioral Cloning #Policy Optimization

2025년 11월 25일

[논문리뷰] VIDEOP2R: Video Understanding from Perception to Reasoning

기존 비디오 RFT 프레임워크가 인식(perception)과 추론(reasoning) 과정을 단일 절차로 처리하여 신용 할당(credit assignment)이 모호해지고 오류 수정 효율성이 떨어진다는 문제를 해결하고자 합니다.

#Review #Video Understanding #Reinforcement Fine-Tuning (RFT)#Large Video Language Models (LVLMs)#Perception and Reasoning #Chain-of-Thought (CoT)#Process-Aware Learning #Policy Optimization #Credit Assignment

2025년 11월 18일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 텍스트-이미지 상호작용에서 발생하는 구성적 안전 위험 과 취약한 안전 인식을 해결하고자 합니다.

#Review #Multimodal Safety Alignment #Rule-Governed RL #Self-Rewarded Learning #MLLM Safety #Policy Optimization #Safety Benchmarking #Compositional Robustness

2025년 11월 17일

[논문리뷰] WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

VLA 모델이 로봇 조작에 큰 잠재력을 보이지만, 전문가 데모에 의존하여 실패로부터 학습하고 스스로 수정하는 능력이 제한적이라는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Reinforcement Learning (RL)#Model-based RL #World Models #Policy Optimization #Robotics #Sample Efficiency #Self-correction

2025년 11월 12일

[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.

#Review #LLM #Reinforcement Learning #Soft-Thinking #Gumbel Reparameterization #Policy Optimization #Chain-of-Thought (CoT)#GRPO

2025년 11월 10일

[논문리뷰] π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

본 논문은 π0 및 π0.5와 같은 플로우 기반(Flow-based) VLA (Vision-Language-Action) 모델 에 대규모 RL을 적용할 때 발생하는 액션 로그-우도(log-likelihood) 계산의 난해함 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action Models (VLAs)#Flow-based Models #Policy Optimization #Robotics #Flow Matching #SDE #MDP

2025년 11월 9일

[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework

본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #LVLMs #Reward Modeling #Policy Optimization #Self-Reflection #Verifiable Rewards #Co-evolution

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.

#Review #Reinforcement Learning #Curriculum Learning #Large Language Models #Mathematical Reasoning #Variance-based Sampling #Replay Learning #Policy Optimization

2025년 9월 26일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] MAPO: Mixed Advantage Policy Optimization

본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.

#Review #Reinforcement Learning #Foundation Models #Policy Optimization #Advantage Function #Trajectory Certainty #Multimodal Reasoning #GRPO

2025년 9월 24일

[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature

기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Policy Optimization #Token Heterogeneity #Adaptive Sampling #Advantage Redistribution #Asymmetric Clipping #Entropy-based RL

2025년 9월 23일

[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models

본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.

#Review #Diffusion LLMs #Reinforcement Learning #Inpainting #Policy Optimization #Exploration #Mathematical Reasoning #GRPO

2025년 9월 15일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.

#Review #RLVR #LLM Reasoning #Adaptive Learning #Hint Scaffolding #Item Response Theory #Exploration Efficiency #Problem Difficulty #Policy Optimization

2025년 9월 10일

[논문리뷰] Bootstrapping Task Spaces for Self-Improvement

본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement #Autocurriculum #Task-Space Exploration #Inference-Time Iteration #Policy Optimization

2025년 9월 8일

[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.

#Review #Agentic Reinforcement Learning #Large Language Models #LLM Agents #Sequential Decision Making #Policy Optimization #Tool Use #Dynamic Environments #Autonomous AI

2025년 9월 3일

[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #RLVR #Large Language Models #Actor-Critic #Supervised Learning #Mathematical Reasoning #Policy Optimization #Cross-Entropy Loss

2025년 9월 3일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

본 연구는 에이전트 추론(agentic reasoning)을 위한 critic-free 강화 학습 방법론, 특히 그룹 정책(group policies)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Critic-Free RL #Agentic Reasoning #Policy Optimization #Large Language Models (LLMs)#Advantage Estimation #Group Sampling #Static Value Estimation

2025년 9월 2일

[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Policy Optimization #Large Language Models #Inference Efficiency #Tree Search #Segment-level Decoding #Advantage Estimation #Reasoning

2025년 8월 27일

[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Bottleneck #Instructional Scaffolding #Rubric-based Rewards #General Reasoning #RL with Verifiable Rewards #Policy Optimization

2025년 8월 26일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Model #Policy Optimization #Reward Hacking #Hybrid Annotation #Mathematical Reasoning #Verifiable Rewards

2025년 8월 14일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일

[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #LLM Reasoning #Policy Optimization #Normalization #Clipping #Loss Aggregation #Overlong Filtering

2025년 8월 12일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일

[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

본 논문은 MLLM(Multimodal Large Language Model) 기반 GUI 에이전트 의 핵심 과제인 자연어 지시문 GUI Grounding 에서 의미론적 정렬(Semantic Alignment) 의 비효율적인 탐색 문제 해결을 목표로 합니다.

#Review #GUI Grounding #MLLMs #Reinforcement Learning #Policy Optimization #Exploration Strategy #Semantic Alignment #Adaptive Exploration Reward #Human-Computer Interaction

2025년 8월 11일

[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree

기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.

#Review #Tool-Use LLM #Reinforcement Learning (RL)#Policy Optimization #Rewarded Tree #Trajectory Optimization #Agentic System #Dynamic Tool Call

2025년 10월 31일

[논문리뷰] Reasoning-Aware GRPO using Process Mining

본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Process Mining #Policy Optimization #Mathematical Reasoning #GRPO #PM4GRPO

2025년 10월 30일

[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

RLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Policy Optimization #Reward Modeling #Flawed Reasoning #Reliable AI #Error Detection

2025년 10월 30일

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일

[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interactions #Reward Sparsity #Information Gain #Policy Optimization #Ground-Truth Awareness #Sample Efficiency

2025년 10월 17일

[논문리뷰] Agentic Entropy-Balanced Policy Optimization

본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.

#Review #Agentic Reinforcement Learning #Web Agents #Tool Learning #Entropy Balancing #Policy Optimization #Rollout Strategy #Large Language Models

2025년 10월 17일

[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

본 논문은 LLM의 불투명한 추론 과정을 명확히 이해하고, 기존 RL의 균일한 크레딧 할당 방식이 중요한 추론 단계를 모호하게 만드는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Reasoning #Attention Mechanisms #Reinforcement Learning #Credit Assignment #Policy Optimization #Interpretability #Preplan-and-Anchor Rhythm #Generative Models

2025년 10월 16일

[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.

#Review #Long-Horizon Tasks #Agentic AI #Context Curation #Working Memory #Reinforcement Learning #Policy Optimization #Large Language Models #Memory-as-Action

2025년 10월 15일

[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Reinforcement Learning #Memory Efficiency #Monte Carlo Sampling #Log-Likelihood Approximation #Policy Optimization #ELBO

2025년 10월 15일

[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.

#Review #Multimodal LLMs #Reflective Reasoning #Long-Chain Reasoning #Benchmark #Policy Optimization #Data Generation #Reinforcement Learning #Backtracking

2025년 10월 10일

[논문리뷰] GCPO: When Contrast Fails, Go Gold

본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs Reasoning #Policy Optimization #Contrastive Learning #Chain of Thought #Reference Answers #Math Reasoning #Gold-Standard Answer

2025년 10월 10일

[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization

본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.

#Review #Multi-Agent RL #Tool-Integrated Planning #Large Language Models (LLMs)#Policy Optimization #Credit Assignment #Reinforcement Learning #MATPO

2025년 10월 9일

[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization

본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Importance Sampling #Policy Optimization #PPO-Clip #Outcome-Supervised RL #Token Weighting #GRPO

2025년 10월 8일

[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.

#Review #LLM Reasoning #RLVR #Dynamic Sampling #Policy Optimization #Response Length #Meta-RL #Overthinking

2025년 10월 6일

[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #LLM Agents #Text-based Environments #Reward Shaping #Policy Optimization #Supervised Fine-tuning (SFT)#Generalization #Environment Complexity

2025년 10월 6일

[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.

#Review #Off-Policy Reinforcement Learning #Large Language Models #Adaptive Clipping #Policy Optimization #PPO #Entropy Preservation #RL Stabilization

2025년 10월 23일

[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Reinforcement Learning #MLLM #Policy Optimization #Finetuning #Reward Modeling #Human Alignment

2025년 10월 21일

[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

논문은 LLM이 정적, 단일 턴 데이터로 훈련되어 확장된 다중 턴 상호작용에서 성능이 저하되고 실시간 사용자 피드백에 적응하기 어려운 문제를 해결하고자 합니다.

#Review #Large Language Models #Multi-turn Interaction #Test-Time Adaptation #Reinforcement Learning from Human Feedback #Policy Optimization #Online Learning #Self-Correction

2025년 10월 1일

[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.

#Review #Vision-Language Models #Multimodal Reasoning #Reasoning #Visual Forgetting #Perceptual Grounding #Reinforcement Learning #Policy Optimization #Visual Anchors

2025년 10월 1일