#Multi-turn Tool-Use

1개의 포스트

[논문리뷰] RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

본 논문은 Multi-turn Tool-Use 에이전트 학습 시 발생하는 데이터 부족 및 정보 밀도 감소 문제를 해결하고자 합니다.

#Review #Multi-turn Tool-Use #Reinforcement Learning #Data Synthesis #Gradient Variance #Capability Boundary #Agentic RL #Replay Buffer

2026년 6월 17일