[논문리뷰] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception논문은 멀티모달 대규모 언어 모델(MLLMs)이 미세한 시각 정보를 인식하는 데 겪는 어려움, 즉 전역적 컨텍스트에 의해 중요한 세부 정보가 가려지는 문제를 해결하고자 합니다.#Review#Multimodal Perception#Fine-Grained Analysis#Knowledge Distillation#Region-to-Image#MLLMs#ZoomBench#Reinforcement Learning2026년 2월 15일댓글 수 로딩 중
[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.#Review#Image-Text Alignment#Multimodal Benchmarking#Hallucination Detection#Vision-Language Models#Synthetic Data Generation#Fine-Grained Analysis#Captioning2025년 12월 3일댓글 수 로딩 중