[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.#Review#Multi-Turn Reinforcement Learning#LLM Agents#Proximal Policy Optimization (PPO)#Turn-Level MDP#Advantage Estimation#Generative AI#Deep Reinforcement Learning2025년 12월 21일댓글 수 로딩 중