#Multi-Turn Optimization

1개의 포스트

[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #Multi-Turn Optimization #Importance Sampling #Distribution Matching

2026년 5월 31일