[논문리뷰] RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents본 논문은 Multi-turn Tool-Use 에이전트 학습 시 발생하는 데이터 부족 및 정보 밀도 감소 문제를 해결하고자 합니다.#Review#Multi-turn Tool-Use#Reinforcement Learning#Data Synthesis#Gradient Variance#Capability Boundary#Agentic RL#Replay Buffer2026년 6월 17일댓글 수 로딩 중