[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

수정: 2026년 1월 21일

링크: 논문 PDF로 바로 열기

저자: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo

핵심 연구 목표

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다. 기존 PRM 벤치마크들이 도구 사용 시나리오의 길고 복잡한 상호작용에 적합하지 않다는 문제를 제기하며, 에이전트의 결정 단계별로 정확성을 평가할 수 있는 ToolPRMBench 를 제안하여 PRM의 효과를 체계적으로 평가하는 것을 목표로 합니다.

핵심 방법론

ToolPRMBenchToolTalk, GTA, BFCL, ToolSandbox 등 다양한 도구 사용 벤치마크의 궤적을 단계별 테스트 샘플로 변환합니다. 오프라인 샘플링 으로 단일 단계 오류를, 온라인 샘플링 으로 다단계 오류를 수집하며, GPT-5, Gemini-3-flash, Claude-4.5-haiku 등 다중 LLM 기반의 검증 파이프라인을 통해 데이터의 신뢰성을 확보합니다. PRM 훈련은 Qwen3-4B 를 기반으로 ToolPRM-Base (SFT) , ToolPRM-CoT (추론 기반 SFT) , ToolPRM-GRPO (강화 학습 기반) 세 가지 방식으로 진행됩니다.

주요 결과

ToolPRMBench 평가 결과, ToolPRM-GRPO 가 비-API 모델 중 가장 높은 78.6% 의 평균 정확도를 달성했습니다. API 기반 LLM (GPT-5, Claude-4.5-haiku, Gemini-2.5-flash) 이 전반적으로 가장 우수한 성능을 보였으며, 모델 크기 확대(Qwen3-14B: 63.0% )도 성능 향상에 기여합니다. 특히, 강화 학습 기반의 ToolPRM-GRPO 는 OOD(분포 외) 환경에서 21.8% 의 상대적 개선을 보여 일반화 능력이 뛰어남을 입증했으며, ToolPRMBench 정확도와 보상 안내 검색 효과 간에 강한 양의 상관관계가 확인되었습니다.

AI 실무자를 위한 시사점

ToolPRMBench 는 도구 사용 에이전트의 복잡한 추론 과정에서 단계별 보상의 중요성 을 부각합니다. LLM의 규모 확장은 유익하지만, 도구 사용에 특화된 훈련 이 PRM의 성능 향상에 결정적임을 시사합니다. 특히 강화 학습 기반 PRM (ToolPRM-GRPO) 은 모델의 견고성과 일반화 능력 을 크게 향상시키며, API 기반 LLM 대비 낮은 비용 으로도 경쟁력 있는 정확도를 제공하여 실제 에이전트 시스템에 적용될 잠재력이 큽니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards

Review 의 다른글