[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

2026년 2월 15일수정: 2026년 2월 15일

링크: 논문 PDF로 바로 열기

저자: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang

핵심 연구 목표

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

핵심 방법론

연구진은 1,780개의 도메인 특화 도구 를 포함하는 확장 가능한 상호작용 환경인 SciAgentGym 을 구축했습니다. 이를 보완하기 위해 L1(쉬움)부터 L3(어려움)까지 계층화된 평가 스위트인 SciAgentBench 를 설계하여 에이전트의 능력을 면밀히 평가합니다. 또한, 도구 액션 공간을 의존성 그래프로 모델링하여 논리적으로 일관된 훈련 궤적을 생성하는 데이터 합성 방법인 SciForge 를 제안했습니다.

주요 결과

평가 결과, 최첨단 모델들이 복잡한 과학 도구 사용에 어려움을 겪는 것으로 나타났습니다. GPT-5 의 경우, 상호작용 단계가 길어질수록 성공률이 60.6%(L1) 에서 30.9%(L3) 로 급격히 하락했습니다. SciForge 로 미세 조정된 SciAgent-8B 모델은 훨씬 큰 Qwen3-VL-235B-Instruct 모델보다 +6.7% 더 나은 성능을 달성했으며, 과학 도구 사용 능력의 긍정적인 교차 도메인 전이 효과를 보였습니다.

AI 실무자를 위한 시사점

이 연구는 LLM 에이전트의 과학적 도구 사용 능력 향상에 실행 기반의 상호작용 데이터 가 필수적임을 강조합니다. SciAgentGym 과 SciForge 는 복잡한 과학 문제 해결을 위한 자율적인 에이전트를 개발하고 평가하는 데 유용한 인프라와 방법론을 제공합니다. 특히 오류 복구 궤적 을 포함한 논리 인식 훈련 데이터 합성 접근 방식은 장기적인 과학 워크플로우를 처리하는 에이전트의 견고성을 높이는 데 중요한 방향을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models
현재글 : [논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
다음글 [논문리뷰] Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback