[논문리뷰] Why Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It본 논문은 다단계 도구 사용 태스크에서 RL 기반 최적화가 겪는 학습 불안정성과 성능 정체 문제를 해결하고자 합니다.#Review#Tool Learning#Reinforcement Learning#Structural Collapse#Supervisory Signals#Interleaved Training#Process Reflection Supervision2026년 6월 25일댓글 수 로딩 중