#Trust Region

7개의 포스트

[논문리뷰] Trust Region Policy Distillation

본 논문은 기존 On-Policy Distillation (OPD) 방식이 가진 구조적 불안정성과 낮은 샘플 효율성 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Trust Region #Policy Gradient #Proximal Teacher #Gradient Variance #Mathematical Reasoning #Post-training

2026년 7월 12일

[논문리뷰] Trust Region On-Policy Distillation

본 논문은 Small Reasoning Models (SRM)을 위한 On-Policy Distillation (OPD)의 학습 불안정성과 비효율성 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Reasoning Models #Trust Region #Policy Gradient #Knowledge Distillation #Language Models

2026년 6월 2일

[논문리뷰] Trust-Region Behavior Blending for On-Policy Distillation

본 논문은 OPD 초기 단계에서 발생하는 학습 불안정성과 낮은 품질의 데이터 생성 문제를 해결하고자 합니다. 기존 OPD는 학생 모델이 학습 초기에 낮은 품질의 trajectory를 생성하면, 교사 모델의 지도(supervision)가 비효율적인 영역에 집중되는 한계가 있습니다 .

#Review #On-policy Distillation #Trust Region #Knowledge Distillation #Language Model Alignment #Annealed Warmup #Behavior Policy

2026년 5월 31일

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Reinforcement Learning #Trust Region #Policy Optimization #Ratio Clipping #f-divergence #Entropy Regularization #Exploration #BandPO

2026년 3월 8일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Policy Optimization #Trust Region #Entropy Clipping #Large Language Models #Training Stability #Distributional Shift

2025년 12월 7일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일