[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards2026년 1월 20일댓글 수 로딩 중