[논문리뷰] Near-Future Policy OptimizationDingyu Yao이 arXiv에 게시한 'Near-Future Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#RLVR#Mixed-Policy#Trajectory Quality#Variance Cost#Self-Taught RL#LLM Post-training2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Self-Distilled RLVRNaibin Gu이 arXiv에 게시한 'Self-Distilled RLVR' 논문에 대한 자세한 리뷰입니다.#Review#LLM Post-training#Reinforcement Learning#Self-Distillation#Information Asymmetry#Credit Assignment#RLVR2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple FixesarXiv에 게시된 'Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes' 논문에 대한 자세한 리뷰입니다.#Review#On-policy Distillation#LLM Post-training#Sampled-token OPD#Variance Reduction#Local Support Matching#Truncated Reverse-KL#Top-p Rollout Sampling#Special Token Masking2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPOarXiv에 게시된 'Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Decentralized RL#GRPO#LLM Post-training#Adversarial Attacks#Data Poisoning#Defense Mechanisms#In-context Attack#Out-of-context Attack2025년 11월 13일댓글 수 로딩 중