[논문리뷰] Trust-Region Behavior Blending for On-Policy Distillation본 논문은 OPD 초기 단계에서 발생하는 학습 불안정성과 낮은 품질의 데이터 생성 문제를 해결하고자 합니다. 기존 OPD는 학생 모델이 학습 초기에 낮은 품질의 trajectory를 생성하면, 교사 모델의 지도(supervision)가 비효율적인 영역에 집중되는 한계가 있습니다 .#Review#On-policy Distillation#Trust Region#Knowledge Distillation#Language Model Alignment#Annealed Warmup#Behavior Policy2026년 5월 31일댓글 수 로딩 중
[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.#Review#LLM Reinforcement Learning#Trust Region#Policy Optimization#Ratio Clipping#f-divergence#Entropy Regularization#Exploration#BandPO2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningLarge Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Policy Optimization#Trust Region#Entropy Clipping#Large Language Models#Training Stability#Distributional Shift2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Soft Adaptive Policy Optimization본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Importance Ratios#Soft Clipping#Trust Region#Mixture-of-Experts#Asymmetric Temperature2025년 11월 25일댓글 수 로딩 중