[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining최근 MLLMs는 External Tools와의 통합을 통해 Agentic Problem Solvers로 발전하고 있으나, 복잡한 Visual Tasks를 위해 다양한 도구를 정확하게 실행하고 효과적으로 조합하는 데 지속적인 병목 현상(persistent bottleneck)을 겪고 있습니다.#Review#Multimodal Large Language Models#Visual Tool Chaining#Agentic Models#Benchmark#OpenCV#Compositional Reasoning#Tool-use Evaluation2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Half-Truths Break Similarity-Based Retrieval본 논문은 CLIP-스타일 이중 인코더 가 '하프 트루스(half-truths)'에 취약하여, 이미지에 대해 정확하지만 짧은 설명보다 그럴듯하지만 오류가 추가된 긴 설명(half-truth) 에 더 높은 유사도를 부여하는 문제를 해결하고자 합니다.#Review#Vision-Language Models#CLIP#Compositional Reasoning#Image-Text Retrieval#Fine-tuning#Hard Negatives#Unit-level Supervision#Half-Truths2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?본 논문은 기존 텍스트-투-이미지(T2I) 벤치마크의 한계를 해결하고, T2I 모델의 구성(composition) 및 추론(reasoning) 능력을 포괄적이고 복합적인 실제 시나리오에서 평가하기 위한 새로운 벤치마크를 제시합니다.#Review#Text-to-Image Generation#T2I Benchmarking#Compositional Reasoning#Deductive Inference#Inductive Inference#Abductive Inference#MLLM Evaluation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다.#Review#Text-to-Image Generation#Multi-Reward Learning#Flow Matching#User Preference Alignment#Training Efficiency#Compositional Reasoning#Conditional Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models본 논문은 Unified Multimodal Models ( UMMs )이 이미지 이해 능력에 비해 이미지 생성 능력에서 현저한 격차를 보이는 문제에 주목합니다. 모델이 사용자 지침에 따라 이미지를 정확하게 이해하더라도, 동일한 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못하는 역설을 해결하고자 합니다.#Review#Unified Multimodal Models#Self-Rewarding#Text-to-Image Generation#Image Understanding#Post-Training#Global-Local Reward#Compositional Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs본 논문은 기존 MLLM 이 전체적인 이해에는 뛰어나지만, 복잡한 장면의 미세한 디테일과 객체 간의 복잡한 관계를 파악하는 데 한계가 있음을 지적합니다.#Review#Multimodal LLMs#Region Understanding#Contextual Pixel Understanding#RoI-aligned Feature Replay#Compositional Reasoning#GAR-Bench#Zero-shot Video Understanding2025년 10월 22일댓글 수 로딩 중