#Multi-Turn Reinforcement Learning

2개의 포스트

[논문리뷰] TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

기존 Text-to-SQL 파싱 방법론들은 Full Schema Assumption 하에서 Large Language Models (LLMs) 의 발전과 함께 remarkable progress를 이루었습니다.

#Review #Text-to-SQL #Unknown Schema #Multi-Turn Reinforcement Learning #Tool Integration #POMDP #Dual-Track GRPO #Schema Grounding #Hallucination

2026년 3월 17일

[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.

#Review #Multi-Turn Reinforcement Learning #LLM Agents #Proximal Policy Optimization (PPO)#Turn-Level MDP #Advantage Estimation #Generative AI #Deep Reinforcement Learning

2025년 12월 21일