#Multi-step Tasks

1개의 포스트

[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Tool-use #Scientific Reasoning #Benchmarking #Interactive Environment #Data Synthesis #Error Recovery #Multi-step Tasks

2026년 2월 15일