#Tool-using Agents

2개의 포스트

[논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

본 논문은 실세계의 복잡한 전문 워크플로우를 수행하는 Agent의 능력과 이를 평가하는 기존 벤치마크 사이의 격차를 해소하고자 합니다.

#Review #Agentic AI #Omni-modal #Tool-using Agents #Model Context Protocol #Closed-loop Verification #Benchmark

2026년 5월 18일

[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.

#Review #Process Reward Models #Tool-using Agents #Benchmark #Reinforcement Learning #Large Language Models #Reward-guided Search #Agent Evaluation #Step-level Rewards

2026년 1월 20일