[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal Agents#Visual Reasoning#Tool Use#Benchmark#Long-Horizon Tasks#Realistic Scenarios#Agentic Intelligence2026년 3월 5일댓글 수 로딩 중