#Multimodal Benchmark

6개의 포스트

[논문리뷰] OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

본 논문은 기존 GUI 에이전트 벤치마크가 정적 스크린샷 위주로 구성되어 있어, 실시간 환경에서 요구되는 동적 오디오 및 비디오 처리 능력을 평가하지 못한다는 한계를 해결하고자 한다 .

#Review #GUI Agents #Multimodal Benchmark #Smartphone Environments #Temporal Reasoning #Auditory Processing #Action Grounding

2026년 5월 19일

[논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding

본 논문은 현대의 영상 이해 모델들이 표면적인 시각 정보(객체 인식, 행동 분류 등) 인식에는 뛰어나지만, 영상에 내재된 은유적이고 사회적인 의미를 파악하는 능력은 현저히 부족하다는 문제 의식에서 출발한다 .

#Review #Video Understanding #Metaphorical Understanding #Subtext Interpretation #Multimodal Benchmark #Rhetorical Mechanisms #Social Value Signals

2026년 5월 14일

[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.

#Review #Deep Research #Multimodal Benchmark #Process-Centric Evaluation #Factuality Verification #Agentic Systems #Adaptive Synthesis

2026년 4월 1일

[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.

#Review #Visual Instruction #Image Editing #Multimodal Benchmark #LMM-as-a-judge #Deictic Grounding #Morphological Manipulation #Causal Reasoning #Generative Models

2026년 2월 2일

[논문리뷰] What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

본 논문은 현재 Vision-Language Models (VLMs) 벤치마크가 대부분 명확하고 구조화된 질문에 초점을 맞추고 있어 실제 사용자 질의의 비공식적이고 불완전한 특성을 제대로 반영하지 못하는 문제를 제기합니다.

#Review #Vision-Language Models #Under-specified Queries #Multimodal Benchmark #HAERAE-Vision #Query Explicitation #Retrieval Augmentation #Cultural Knowledge #Korean QA

2026년 1월 12일

[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Vision-Language Models #Multimodal Benchmark #Rebus Puzzles #In-Context Learning #Reasoning #ControlNet #Prompt Engineering

2025년 11월 9일