#Closed-loop Verification

1개의 포스트

[논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

본 논문은 실세계의 복잡한 전문 워크플로우를 수행하는 Agent의 능력과 이를 평가하는 기존 벤치마크 사이의 격차를 해소하고자 합니다.

#Review #Agentic AI #Omni-modal #Tool-using Agents #Model Context Protocol #Closed-loop Verification #Benchmark

2026년 5월 18일