#PPO

13개의 포스트

[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.

#Review #Personalized RewardBench #Reward Modeling #Pluralistic Alignment #User Profile #Downstream Validation #Best-of-N #PPO

2026년 4월 8일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents

본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Procedural Generation #Terminal Agents #Environment Scaling #Language Models (LLMs)#PPO #Task Generation #Automated Verification

2026년 1월 25일

[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning

픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Visual Generalization #Distribution Shift #Benchmarking #JAX #Controlled Environments #PPO

2026년 1월 20일

[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #Vision-Language Models (VLMs)#Agentic AI #Knowledge Distillation #Model Merging #PPO #Thought Guidance #Cost Efficiency

2025년 12월 25일

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일

[논문리뷰] GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

본 연구는 기존 제로샷 텍스트 분류 모델(생성형 LLM, 크로스 인코더, 임베딩 기반 모델)의 한계점, 즉 계산 비효율성, 지시 불일치, 확장성 부족 등을 해결하고자 합니다.

#Review #Sequence Classification #Zero-shot Learning #Few-shot Learning #Transformer #Multi-label Classification #PPO #GLiNER #Computational Efficiency

2025년 8월 12일

[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language Models #Synthetic Worlds #Transfer Learning #PPO #Actor-Critic #Embodied AI

2025년 8월 7일

[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.

#Review #Off-Policy Reinforcement Learning #Large Language Models #Adaptive Clipping #Policy Optimization #PPO #Entropy Preservation #RL Stabilization

2025년 10월 23일

[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

본 논문은 Vision-Language-Action (VLA) 모델 에 강화 학습(RL)을 적용할 때 발생하는 소규모 및 파편화된 실험의 문제점을 해결하고자 합니다. 대규모 실험을 지원하고 다양한 모델, 알고리즘, 평가 설정 간의 공정한 비교를 가능하게 하는 통합적이고 효율적인 프레임워크 를 제공하는 것을 목표로 합니다.

#Review #Reinforcement Learning #VLA Models #Robotics #GPU Management #PPO #GRPO #Sim-to-Real

2025년 10월 9일

[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration

이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Exploration #Rollout Size #Verifiable Rewards #PPO #Mass Balance Equation

2025년 10월 2일