[논문리뷰] AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using AgentsLLMs가 tool-using agent로 발전하면서 외부 환경과 상호작용하는 능력은 크게 향상되었지만, long-horizon 상호작용에서는 여전히 취약합니다.#Review#Large language models#Process reward models#Tool-using agents#Step-level evaluation#Agent trajectories#Benchmark2026년 3월 17일댓글 수 로딩 중