#Importance Sampling

5개의 포스트

[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #Multi-Turn Optimization #Importance Sampling #Distribution Matching

2026년 5월 31일

[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.

#Review #On-policy Distillation #Reward Extrapolation #Structured Output #Format Adherence #Importance Sampling #LLM

2026년 5월 13일

[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

LLM(Large Language Models)을 위한 오프-정책(off-policy) 강화 학습 훈련 시 발생하는 불안정성 문제, 즉 정책 노후화(policy staleness), 비동기 훈련, 훈련-추론 불일치로 인한 높은 중요도 샘플링(IS) 분산을 해결하는 것을 목표로 합니다.

#Review #Off-Policy RL #LLM Training #Importance Sampling #Variance Reduction #Variational Optimization #Policy Gradient #Sequence-Level Optimization #Reinforcement Learning

2026년 2월 22일

[논문리뷰] Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

본 논문은 LLM 기반 RL의 불안정성 문제를 해결하고, 시퀀스 레벨 보상을 토큰 레벨 최적화 목표로 효과적으로 근사하여 최적화할 수 있는 조건을 밝히는 것을 목표로 합니다. 특히, MoE 모델에서 동적 전문가 라우팅이 학습 안정성에 미치는 영향을 분석하고, 이를 완화하기 위한 실용적인 방법을 제시합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Gradient #REINFORCE #Mixture-of-Experts (MoE)#Training Stability #Importance Sampling #Routing Replay #Off-policy Learning

2025년 12월 1일

[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization

본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Importance Sampling #Policy Optimization #PPO-Clip #Outcome-Supervised RL #Token Weighting #GRPO

2025년 10월 8일