#Multimodal Benchmarking

3개의 포스트

[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.

#Review #Image-Text Alignment #Multimodal Benchmarking #Hallucination Detection #Vision-Language Models #Synthetic Data Generation #Fine-Grained Analysis #Captioning

2025년 12월 3일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models

본 연구는 대규모 멀티모달 모델(LMM)이 시간에 따라 변화하는 사실적 지식을 정확하게 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Time-Sensitive Knowledge #Temporal Reasoning #Knowledge Editing #Multimodal Benchmarking #Temporal Awareness #Dynamic Knowledge

2025년 10월 23일