[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#Multi-Turn Optimization#Importance Sampling#Distribution Matching2026년 5월 31일댓글 수 로딩 중
[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.#Review#On-policy Distillation#Reward Extrapolation#Structured Output#Format Adherence#Importance Sampling#LLM2026년 5월 13일댓글 수 로딩 중
[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM TrainingLLM(Large Language Models)을 위한 오프-정책(off-policy) 강화 학습 훈련 시 발생하는 불안정성 문제, 즉 정책 노후화(policy staleness), 비동기 훈련, 훈련-추론 불일치로 인한 높은 중요도 샘플링(IS) 분산을 해결하는 것을 목표로 합니다.#Review#Off-Policy RL#LLM Training#Importance Sampling#Variance Reduction#Variational Optimization#Policy Gradient#Sequence-Level Optimization#Reinforcement Learning2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient#REINFORCE#Mixture-of-Experts (MoE)#Training Stability#Importance Sampling#Routing Replay#Off-policy Learning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Importance Sampling#Policy Optimization#PPO-Clip#Outcome-Supervised RL#Token Weighting#GRPO2025년 10월 8일댓글 수 로딩 중