[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.#Review#Image-Text Alignment#Multimodal Benchmarking#Hallucination Detection#Vision-Language Models#Synthetic Data Generation#Fine-Grained Analysis#Captioning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.#Review#AI Assistants#Multimodal Benchmarking#Audio Understanding#Speech Synthesis#Vision-Language Models#Role-play#Safety#Robustness2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models본 연구는 대규모 멀티모달 모델(LMM)이 시간에 따라 변화하는 사실적 지식을 정확하게 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Large Multimodal Models (LMMs)#Time-Sensitive Knowledge#Temporal Reasoning#Knowledge Editing#Multimodal Benchmarking#Temporal Awareness#Dynamic Knowledge2025년 10월 23일댓글 수 로딩 중