#Deep Reinforcement Learning

1개의 포스트

[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.

#Review #Multi-Turn Reinforcement Learning #LLM Agents #Proximal Policy Optimization (PPO)#Turn-Level MDP #Advantage Estimation #Generative AI #Deep Reinforcement Learning

2025년 12월 21일