[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Deep Research#Benchmark#Visual Search#Textual Search#Cropped Search#Evaluation2026년 2월 2일댓글 수 로딩 중