[논문리뷰] OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments본 논문은 기존 GUI 에이전트 벤치마크가 정적 스크린샷 위주로 구성되어 있어, 실시간 환경에서 요구되는 동적 오디오 및 비디오 처리 능력을 평가하지 못한다는 한계를 해결하고자 한다 .#Review#GUI Agents#Multimodal Benchmark#Smartphone Environments#Temporal Reasoning#Auditory Processing#Action Grounding2026년 5월 19일댓글 수 로딩 중
[논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding본 논문은 현대의 영상 이해 모델들이 표면적인 시각 정보(객체 인식, 행동 분류 등) 인식에는 뛰어나지만, 영상에 내재된 은유적이고 사회적인 의미를 파악하는 능력은 현저히 부족하다는 문제 의식에서 출발한다 .#Review#Video Understanding#Metaphorical Understanding#Subtext Interpretation#Multimodal Benchmark#Rhetorical Mechanisms#Social Value Signals2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.#Review#Deep Research#Multimodal Benchmark#Process-Centric Evaluation#Factuality Verification#Agentic Systems#Adaptive Synthesis2026년 4월 1일댓글 수 로딩 중
[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.#Review#Visual Instruction#Image Editing#Multimodal Benchmark#LMM-as-a-judge#Deictic Grounding#Morphological Manipulation#Causal Reasoning#Generative Models2026년 2월 2일댓글 수 로딩 중
[논문리뷰] What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models본 논문은 현재 Vision-Language Models (VLMs) 벤치마크가 대부분 명확하고 구조화된 질문에 초점을 맞추고 있어 실제 사용자 질의의 비공식적이고 불완전한 특성을 제대로 반영하지 못하는 문제를 제기합니다.#Review#Vision-Language Models#Under-specified Queries#Multimodal Benchmark#HAERAE-Vision#Query Explicitation#Retrieval Augmentation#Cultural Knowledge#Korean QA2026년 1월 12일댓글 수 로딩 중
[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.#Review#Vision-Language Models#Multimodal Benchmark#Rebus Puzzles#In-Context Learning#Reasoning#ControlNet#Prompt Engineering2025년 11월 9일댓글 수 로딩 중