본문으로 건너뛰기

#Trust Region

5개의 포스트

[논문리뷰] Trust-Region Behavior Blending for On-Policy Distillation

댓글 수 로딩 중

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

댓글 수 로딩 중

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

댓글 수 로딩 중

[논문리뷰] Soft Adaptive Policy Optimization

댓글 수 로딩 중