[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.#Review#Personalized RewardBench#Reward Modeling#Pluralistic Alignment#User Profile#Downstream Validation#Best-of-N#PPO2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningLarge Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.#Review#Reinforcement Learning#Procedural Generation#Terminal Agents#Environment Scaling#Language Models (LLMs)#PPO#Task Generation#Automated Verification2026년 1월 25일댓글 수 로딩 중
[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Visual Generalization#Distribution Shift#Benchmarking#JAX#Controlled Environments#PPO2026년 1월 20일댓글 수 로딩 중
[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training멀티턴 강화 학습(RL) 기반 VLM(Vision-Language Model) 에이전트 훈련 의 주요 문제점인 희소한 보상, 긴 신용 할당 문제, 그리고 GTR(Guided Thought Reinforcement) 과 같은 기존 방법론에서 외부 교사 모델 사용으로 인한 높은 비용과 접근성 한계를 해결하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#Vision-Language Models (VLMs)#Agentic AI#Knowledge Distillation#Model Merging#PPO#Thought Guidance#Cost Efficiency2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Strategy#Gradient-Guided#Reward Shaping#Reasoning#PPO2025년 12월 17일댓글 수 로딩 중
[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#PPO#Entropy Control#Gradient Clipping#Exploration-Exploitation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.#Review#Reasoning LLMs#Reinforcement Learning#PPO#Gradient Clipping#Supervised Fine-tuning#Math Reasoning#Code Generation#Policy Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] GLiClass: Generalist Lightweight Model for Sequence Classification Tasks본 연구는 기존 제로샷 텍스트 분류 모델(생성형 LLM, 크로스 인코더, 임베딩 기반 모델)의 한계점, 즉 계산 비효율성, 지시 불일치, 확장성 부족 등을 해결하고자 합니다.#Review#Sequence Classification#Zero-shot Learning#Few-shot Learning#Transformer#Multi-label Classification#PPO#GLiNER#Computational Efficiency2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language Models#Synthetic Worlds#Transfer Learning#PPO#Actor-Critic#Embodied AI2025년 8월 7일댓글 수 로딩 중
[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training본 논문은 Vision-Language-Action (VLA) 모델 에 강화 학습(RL)을 적용할 때 발생하는 소규모 및 파편화된 실험의 문제점을 해결하고자 합니다. 대규모 실험을 지원하고 다양한 모델, 알고리즘, 평가 설정 간의 공정한 비교를 가능하게 하는 통합적이고 효율적인 프레임워크 를 제공하는 것을 목표로 합니다.#Review#Reinforcement Learning#VLA Models#Robotics#GPU Management#PPO#GRPO#Sim-to-Real2025년 10월 9일댓글 수 로딩 중
[논문리뷰] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping본 논문은 대규모 언어 모델(LLMs)을 위한 오프-폴리시(off-policy) 강화 학습(RL)의 불안정성 문제를 해결하고자 합니다. 오프-폴리시 RL은 정책 엔트로피 급감, 불안정한 최적화, 그리고 훈련 붕괴로 이어지는 경향이 있어, 샘플 효율성에도 불구하고 LLMs에 적용하기 어렵습니다.#Review#Off-Policy Reinforcement Learning#Large Language Models#Adaptive Clipping#Policy Optimization#PPO#Entropy Preservation#RL Stabilization2025년 10월 23일댓글 수 로딩 중
[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLMs#Scaling Laws#Exploration#Rollout Size#Verifiable Rewards#PPO#Mass Balance Equation2025년 10월 2일댓글 수 로딩 중