[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents기존 벤치마크의 제한적인 태스크 복잡도, 정보 검색 가능성, 평가 차원의 문제를 해결하여 멀티모달 웹 브라우징 에이전트의 심층 검색 역량을 포괄적으로 평가할 수 있는 새롭고 검증 가능한 벤치마크를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Web Browsing Agents#Deep Search#Benchmark#Tool Use#Process Evaluation#Multimodal Reasoning#Open-world QA2026년 2월 16일댓글 수 로딩 중