#MLLM Evaluation

4개의 포스트

[논문리뷰] SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

기존 대규모 다중모달 언어 모델(MLLM) 평가 방식은 긴 과학 논문에서 심층적인 이해와 인과 관계를 파악하는 증거 기반 추론 능력 을 제대로 측정하지 못하고, 종종 표면적인 검색이나 파라미터 지식에만 의존하는 한계를 보였습니다.

#Review #Long-Context Understanding #Multimodal AI #Scientific Literature #Evidence-based Reasoning #MLLM Evaluation #Benchmarking #Cross-modal Reasoning #Information Synthesis

2026년 1월 19일

[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?

본 논문은 기존 MLLM 평가 방식이 캡션의 실제 활용성, 즉 다운스트림 태스크에서 이미지를 대체할 수 있는 능력 을 간과한다고 지적합니다.

#Review #Image Captioning #Caption Evaluation #Multimodal LLM #Utility-based Benchmark #Question Answering (QA)#Domain-specific Taxonomy #Hallucination #MLLM Evaluation

2025년 11월 30일

[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.

#Review #Multimodal LLMs #Benchmark #Cognitive Capacity #Visual Reasoning #MLLM Evaluation #Error Analysis #Chain-of-Thought

2025년 11월 9일

[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

본 논문은 기존 텍스트-투-이미지(T2I) 벤치마크의 한계를 해결하고, T2I 모델의 구성(composition) 및 추론(reasoning) 능력을 포괄적이고 복합적인 실제 시나리오에서 평가하기 위한 새로운 벤치마크를 제시합니다.

#Review #Text-to-Image Generation #T2I Benchmarking #Compositional Reasoning #Deductive Inference #Inductive Inference #Abductive Inference #MLLM Evaluation

2025년 9월 9일