#LLM Post-training

4개의 포스트

[논문리뷰] Near-Future Policy Optimization

Dingyu Yao이 arXiv에 게시한 'Near-Future Policy Optimization' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #RLVR #Mixed-Policy #Trajectory Quality #Variance Cost #Self-Taught RL #LLM Post-training

2026년 4월 22일

[논문리뷰] Self-Distilled RLVR

Naibin Gu이 arXiv에 게시한 'Self-Distilled RLVR' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Post-training #Reinforcement Learning #Self-Distillation #Information Asymmetry #Credit Assignment #RLVR

2026년 4월 5일

[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

arXiv에 게시된 'Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes' 논문에 대한 자세한 리뷰입니다.

#Review #On-policy Distillation #LLM Post-training #Sampled-token OPD #Variance Reduction #Local Support Matching #Truncated Reverse-KL #Top-p Rollout Sampling #Special Token Masking

2026년 3월 26일

[논문리뷰] Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

arXiv에 게시된 'Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO' 논문에 대한 자세한 리뷰입니다.

#Review #Decentralized RL #GRPO #LLM Post-training #Adversarial Attacks #Data Poisoning #Defense Mechanisms #In-context Attack #Out-of-context Attack

2025년 11월 13일