#RLVR

44개의 포스트

[논문리뷰] Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

본 논문은 Muon 옵티마이저가 사전 학습(Pretraining) 단계를 넘어선 하류 태스크(Downstream tasks), 특히 VLA 및 RLVR 환경에서 성능 저하를 보이는 근본적인 이유를 규명합니다.

#Review #Muon #Pretraining #Spectral Analysis #VLA #RLVR #Optimization #Deep Learning

2026년 5월 24일

[논문리뷰] From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning

본 논문은 난도가 높은 추론 문제에 대해 기존의 RLVR 방식이 가지는 효율성 한계를 해결하고자 한다 . 고난도 문제에서는 최종 정답에 도달하는 경로가 매우 희소하여, 모델이 중간 단계에서 올바른 추론을 수행하더라도 이를 학습 신호로 적절히 환원하기 어렵다.

#Review #Curriculum Reinforcement Learning #LLM Reasoning #Credit Assignment #Verifiable Rewards #Subproblem Decomposition #RLVR

2026년 5월 21일

[논문리뷰] DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

본 논문은 시퀀스 단위의 보상을 토큰 단위의 학습 신호로 변환할 때 발생하는 불투명성을 해결하기 위해 DelTA를 제안합니다. 기존의 RLVR 방식은 응답 전체에 대해 단일 스칼라 보상을 부여하지만, 실제 정책 업데이트는 토큰별로 이루어지므로 Granularity(세분성)의 불일치가 존재합니다.

#Review #RLVR #Credit Assignment #Discriminator #Policy-Gradient #Token-Level #Centroid

2026년 5월 21일

[논문리뷰] You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

본 연구는 고비용의 RLVR 학습 과정에서 발생하는 막대한 컴퓨팅 자원 소비 문제를 해결하기 위해 고안되었습니다. 기존의 RLVR은 성능 향상을 위해 방대한 최적화 단계가 필수적이지만, 학습 궤적의 기하학적 구조에 대한 이해가 부족하여 효율적인 최적화가 어려웠습니다.

#Review #RLVR #LLMs #Low-rank #Extrapolation #SVD #Training-free #Parameter Trajectories

2026년 5월 20일

[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models

본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.

#Review #Large Language Models #Reinforcement Learning #RLVR #Unlearnability #Gradient Outliers #Representation Learning

2026년 5월 20일

[논문리뷰] Video Models Can Reason with Verifiable Rewards

본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .

#Review #Video Generation #Reinforcement Learning #Verifiable Rewards #Video Reasoning #Diffusion Models #Flow-Matching #RLVR

2026년 5월 19일

[논문리뷰] CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

본 논문은 RLVR 환경에서 기존 정책 최적화 방식들이 겪는 불균일한 credit assignment 문제를 해결하기 위해 CEPO를 제안합니다. 기존의 GRPO와 같은 방식은 전체 시퀀스에 동일한 보상을 부여하여 결정적 추론 단계와 단순 서술 토큰을 구분하지 못하는 한계가 있습니다.

#Review #RLVR #Credit Assignment #Self-Distillation #Contrastive Learning #Policy Optimization #Information Leakage

2026년 5월 19일

[논문리뷰] Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

본 논문은 RLVR 환경에서 고질적인 문제인 탐색의 병목 현상을 해결하고자 합니다. 기존 방식은 탐색 효율을 높이기 위해 샘플링 횟수(Rollout)를 무작정 늘리는 방식을 취하지만, 이는 계산 비용이 극심하고 long-tail에 위치한 희귀한 정답 추론 경로를 발견하는 데 한계가 있습니다 .

#Review #RLVR #Reinforcement Learning #Exploration #LLM Reasoning #Strategy Nudging #Inter-Intra Group Advantage #Distillation

2026년 5월 17일

[논문리뷰] Look Before You Leap: Autonomous Exploration for LLM Agents

본 논문은 현대의 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 조기 착취(Premature Exploitation) 문제에 빠지는 현상을 해결하고자 합니다.

#Review #LLM Agents #Autonomous Exploration #RLVR #GRPO #Exploration Checkpoint Coverage #Explore-then-Act

2026년 5월 17일

[논문리뷰] The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

본 연구는 OPD와 OPSD가 시스템 프롬프트 및 지식 내재화에는 효과적이나, 최근 연구들에서 보고된 학습 불안정성(instability) 및 성능 저하(degradation) 문제를 근본적으로 규명하고자 합니다.

#Review #On-Policy Distillation #Self-Distillation #Language Models #Reverse-KL #Privileged Information #Optimization Stability #RLVR

2026년 5월 12일

[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.

#Review #RLVR #Policy Optimization #Listwise #Target-Projection #Large Language Models #Reasoning #Gibbs Target

2026년 5월 10일

[논문리뷰] HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

본 논문은 현대의 복잡한 Agentic Harness 설계 이면에 숨겨진 실질적인 성능 구동 메커니즘을 규명하고 이를 단순화하고자 한다. 기존의 오케스트레이션 설계는 시스템이 매우 복잡하여 실질적인 추론 메커니즘을 파악하기 어렵다는 한계가 있었다.

#Review #Agentic Harness #Heavy Thinking #Large Language Model #Test-Time Scaling #Sequential Deliberation #Parallel Reasoning #RLVR

2026년 5월 5일

[논문리뷰] Near-Future Policy Optimization

본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.

#Review #Reinforcement Learning #RLVR #Mixed-Policy #Trajectory Quality #Variance Cost #Self-Taught RL #LLM Post-training

2026년 4월 22일

[논문리뷰] Target Policy Optimization

본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Target Policy Optimization #Sparse Reward #Policy Gradient #Cross-Entropy #RLVR #Grouped RL

2026년 4월 15일

[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .

#Review #Large Language Models #Reinforcement Learning #Reasoning #Self-Refinement #RLVR #Policy Optimization #Implicit Curriculum

2026년 4월 7일

[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.

#Review #RLVR #GRPO #SDPO #Sample Routing #Policy Optimization #Self-Distillation

2026년 4월 6일

[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?

본 연구는 RLVR 학습 환경에서 불가피하게 발생하는 noisy label이 모델의 추론 성능에 미치는 치명적인 영향과 기존 연구의 한계를 체계적으로 분석합니다.

#Review #RLVR #Noisy Label Learning #Online Label Refinement #Early Correctness Coherence #Large Language Models #Reasoning

2026년 4월 6일

[논문리뷰] Self-Distilled RLVR

본 논문은 OPSD 가 훈련 초기에는 성능 향상을 보이나, 곧 정보 누출(Information Leakage)로 인해 성능이 저하되는 원인을 규명하고 이를 해결하고자 합니다.

#Review #LLM Post-training #Reinforcement Learning #Self-Distillation #Information Asymmetry #Credit Assignment #RLVR

2026년 4월 5일

[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Chain-of-Thought #Efficiency #RLVR #Multi-Domain #Reasoning

2026년 4월 2일

[논문리뷰] On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Large Language Models (LLMs)의 reasoning capability는 Reinforcement Learning with Verifiable Rewards (RLVR)와 같은 기법을 통해 크게 발전했습니다.

#Review #RLVR #LLM Reasoning #Log Probability Difference #Directional Updates #Test-Time Extrapolation #Advantage Reweighting #Sparse Updates

2026년 3월 23일

[논문리뷰] How Far Can Unsupervised RLVR Scale LLM Training?

본 논문은 ground truth 레이블 없이 보상을 얻는 Unsupervised Reinforcement Learning with Verifiable Rewards (URLVR) 가 대규모 언어 모델(LLM) 학습을 얼마나 확장할 수 있는지 종합적으로 분석하는 것을 목표로 합니다.

#Review #Unsupervised Reinforcement Learning #LLM Training #Intrinsic Rewards #External Rewards #Model Collapse #RLVR #Model Prior #Self-Verification

2026년 3월 9일

[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning

본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Multi-Agent Systems #Policy Optimization #Heterogeneous Agents #Sample Efficiency #Knowledge Transfer #RLVR

2026년 3월 4일

[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection

본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Data Selection #Mutual Information #Epistemic Uncertainty #LLMs #RLVR #Training Efficiency

2026년 3월 2일

[논문리뷰] DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

기존 멀티모달 RLVR(Reinforcement Learning with Verifiable Rewards) 학습 데이터셋의 제한적인 다양성, 커버리지, 일반화 능력을 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Mathematical Dataset #RLVR #Data Curation #Visual Diversity #K12 Mathematics #Large Multimodal Models

2026년 2월 22일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 로 튜닝된 LLM 이 때로는 불량한(spurious) 보상 에도 불구하고 성능 향상을 보이는 'Spurious Rewards Paradox' 현상을 기계론적으로 이해하는 것을 목표로 합니다.

#Review #RLVR #LLMs #Mechanistic Interpretability #Memorization Shortcuts #Data Contamination #Anchor-Adapter Circuit #Path Patching #Logit Lens

2026년 1월 19일

[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.

#Review #RLVR #LLMs #Reasoning #Judge-then-Generate #Quality-Efficiency #Discriminative Supervision #Mathematical Reasoning #Backtracking Reduction

2026년 1월 13일

[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Clipping #Policy Entropy #Spurious Rewards #Mathematical Reasoning #RLVR

2025년 12월 18일

[논문리뷰] Rectifying LLM Thought from Lens of Optimization

본 논문은 Long Chain-of-Thought (CoT) LLM이 흔히 보이는 과도한 추론 및 불필요하게 긴 추론 사슬과 같은 비최적 추론 행동 을 해결하여, 성능 저하 및 높은 계산 비용 문제를 개선하는 것을 목표로 합니다. CoT를 최적화 과정으로 재개념화하고 이를 효과적으로 교정하고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #RLVR #Optimization Framework #Process-level Reward #Gradient Descent #Reasoning Efficiency #Suboptimal Reasoning

2025년 12월 1일

[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

본 연구는 RL 후처리 훈련이 기존 VLM의 내재적 추론 능력 경계 를, 특히 시각 중심의 공간 추론 작업에서 확장할 수 있는지 탐색하는 것을 목표로 합니다. 이를 위해, 정밀하게 난이도를 제어할 수 있는 프레임워크인 Ariadne 를 도입하여 VLM의 추론 행동을 체계적으로 조사하고 한계를 확장하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Spatial Reasoning #Controllable Framework #RLVR #GRPO #Maze Navigation #Generalization Boundaries

2025년 11월 10일

[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.

#Review #LLMs #RLVR #Length Regularization #Mathematical Reasoning #Data Curation #Model Efficiency #Emergent Brevity

2025년 11월 9일

[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs

본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.

#Review #MLLMs #Post-training #Self-supervised Learning #Visual Understanding #Jigsaw Puzzles #RLVR #Multimodal Perception #Spatial Reasoning

2025년 9월 30일

[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning

대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Entropy Control #Advantage Estimation #Quantile Baseline #Exploration-Exploitation #RLVR

2025년 9월 29일

[논문리뷰] No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

본 논문은 기존의 Verifiable Rewards를 활용한 강화 학습(RLVR) 방법론, 특히 GRPO 가 모든 롤아웃 응답이 동일한 보상을 받는 ' Zero-Variance Prompts '를 무시하여 귀중한 학습 신호를 손실하고 롤아웃 비용을 낭비하는 문제를 해결하고자 합니다.

#Review #LLM Reinforcement Learning #Zero-Variance Prompts #Advantage Shaping #Entropy-Guided #Math Reasoning #RLVR #Group Relative Policy Optimization

2025년 9월 29일

[논문리뷰] Single-stream Policy Optimization

본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Optimization #Policy Gradient #Variance Reduction #Adaptive Sampling #Scalability #Agentic Systems #RLVR

2025년 9월 17일

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일

[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.

#Review #RLVR #LLM Reasoning #Adaptive Learning #Hint Scaffolding #Item Response Theory #Exploration Efficiency #Problem Difficulty #Policy Optimization

2025년 9월 10일

[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #RLVR #Large Language Models #Actor-Critic #Supervised Learning #Mathematical Reasoning #Policy Optimization #Cross-Entropy Loss

2025년 9월 3일

[논문리뷰] DCPO: Dynamic Clipping Policy Optimization

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Dynamic Clipping #Advantage Standardization #RLVR #Reasoning

2025년 9월 3일

[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.

#Review #Reinforcement Learning #LLM #Self-Verification #Last-Token #Reward Modeling #Efficiency #Reasoning #RLVR

2025년 10월 17일

[논문리뷰] Mitigating Overthinking through Reasoning Shaping

본 논문은 Reinforcement Learning from Verifier Reward (RLVR)로 학습된 대규모 추론 모델(LRMs) 의 '과잉 사고(overthinking)' 문제를 해결하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#RLVR #Overthinking Mitigation #Reasoning Shaping #Segment-level Penalization #Computational Efficiency #Training Stability #Length-aware Weighting

2025년 10월 13일

[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.

#Review #LLM Reasoning #RLVR #Dynamic Sampling #Policy Optimization #Response Length #Meta-RL #Overthinking

2025년 10월 6일

[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.

#Review #Reinforcement Learning #LLM Alignment #Human Values #Reward Shaping #Value-Weighted Reward #Termination Policy #RLVR

2025년 10월 24일

[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCR

본 논문은 인쇄된 문서를 깨끗하고 자연스럽게 정렬된 일반 텍스트로 변환하는 OCR 시스템인 OLMOCR 2 를 제안합니다. 특히, 강화 학습(RL) 과 검증 가능한 보상(RLVR) 을 활용하여 수학 공식, 테이블 파싱, 다단 레이아웃과 같은 복잡한 문서 구조 처리 성능을 대폭 개선하는 것을 목표로 합니다.

#Review #Document OCR #Vision Language Model #Reinforcement Learning #Unit Tests #Synthetic Data Generation #RLVR #Document Parsing #State-of-the-Art OCR

2025년 10월 23일