[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models
링크: 논문 PDF로 바로 열기
저자: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh
핵심 연구 목표
본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다. 특히, SFT 단계 없이 RL-only 프레임워크 를 통해 데이터 효율적이고 확장 가능한 도구 사용 학습 방법을 개발하는 것이 주된 목표입니다.
핵심 방법론
제안하는 ICRL(In-Context Reinforcement Learning) 은 RL 롤아웃 단계에서 few-shot in-context 예시 를 활용하여 모델이 도구 사용 방식을 학습하도록 합니다. 훈련이 진행됨에 따라 이 예시의 수를 점진적으로 줄여 curriculum learning 방식을 도입하며, 최종적으로는 zero-shot 환경에서 모델이 스스로 도구를 호출하도록 유도합니다. 최적화에는 GRPO (Shao et al., 2024) 가 사용되며, 보상 함수는 정확도(EM)와 형식 준수 를 결합하여 설계되었습니다.
주요 결과
ICRL 은 다양한 QA 및 추론 벤치마크에서 SOTA 성능 을 달성했습니다. Qwen2.5-3B 모델에서는 평균 EM 정확도 40.16% 를 기록하며 Search-R1 (31.10%) 대비 +8.94% 높은 성능을 보였고, Qwen2.5-7B 모델에서는 49.12% 로 ParallelSearch (41.78%) 대비 +7.34% 높은 결과를 나타냈습니다. 특히 2Wiki (+7.3%) 및 Musique (+9.7%) 와 같은 다중 홉 데이터셋에서 큰 개선을 보였으며, 수학 추론 벤치마크에서도 SFT 없이 ReTool에 필적하는 성능 을 입증했습니다.
AI 실무자를 위한 시사점
ICRL 은 외부 도구 연동이 필요한 LLM 애플리케이션 개발 시 값비싼 SFT 데이터 레이블링 없이 모델을 훈련할 수 있는 데이터 효율적인 대안 을 제공합니다. 이는 특히 리소스가 제한적이거나 빠르게 변화하는 도메인에서 LLM의 도구 사용 능력을 확장하는 데 유용합니다. 점진적인 in-context 예시 감소(curriculum design) 전략은 모델의 자율적인 도구 사용 능력을 효과적으로 구축하는 실용적인 방법론을 제시합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents
- 현재글 : [논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models
- 다음글 [논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers