#Process Evaluation

1개의 포스트

[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

기존 벤치마크의 제한적인 태스크 복잡도, 정보 검색 가능성, 평가 차원의 문제를 해결하여 멀티모달 웹 브라우징 에이전트의 심층 검색 역량을 포괄적으로 평가할 수 있는 새롭고 검증 가능한 벤치마크를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Web Browsing Agents #Deep Search #Benchmark #Tool Use #Process Evaluation #Multimodal Reasoning #Open-world QA

2026년 2월 16일