[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool ChainingZhipeng Wu이 arXiv에 게시한 'VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Visual Tool Chaining#Agentic Models#Benchmark#OpenCV#Compositional Reasoning#Tool-use Evaluation2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Half-Truths Break Similarity-Based RetrievalSeong Joon Oh이 arXiv에 게시한 'Half-Truths Break Similarity-Based Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#CLIP#Compositional Reasoning#Image-Text Retrieval#Fine-tuning#Hard Negatives#Unit-level Supervision#Half-Truths2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image EditingDingkun Long이 arXiv에 게시한 'Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiencyDavid Picard이 arXiv에 게시한 'MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Multi-Reward Learning#Flow Matching#User Preference Alignment#Training Efficiency#Compositional Reasoning#Conditional Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMsarXiv에 게시된 'Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Region Understanding#Contextual Pixel Understanding#RoI-aligned Feature Replay#Compositional Reasoning#GAR-Bench#Zero-shot Video Understanding2025년 10월 22일댓글 수 로딩 중
[논문리뷰] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal ModelsarXiv에 게시된 'SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Self-Rewarding#Text-to-Image Generation#Image Understanding#Post-Training#Global-Local Reward#Compositional Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?Rui Chen이 arXiv에 게시한 'Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#T2I Benchmarking#Compositional Reasoning#Deductive Inference#Inductive Inference#Abductive Inference#MLLM Evaluation2025년 9월 9일댓글 수 로딩 중