#Visual Reasoning

63개의 포스트

[논문리뷰] UniVR: Thinking in Visual Space for Unified Visual Reasoning

본 논문은 현재 AI 모델들이 추론 및 계획 능력을 주로 텍스트 공간 내에서 수행함으로써 발생하는 한계를 지적합니다. 텍스트는 추상적인 표현에 불과하여 물리적 법칙, 복잡한 동적 변화, 공간적 관계를 완벽히 담아내지 못하며, 이로 인해 모델이 실제 시각적 환경에서 일관성 있는 행동을 수행하는 데 어려움을 겪습니다 .

#Review #Visual Reasoning #Reinforcement Learning #Unified Generative Model #Long-horizon Planning #Physical Consistency #World Modeling

2026년 7월 16일

[논문리뷰] Concurrent Image Understanding and Generation: Self-Correcting Coupled Markov Jump Processes

기존의 다중 모달 생성 시스템은 텍스트와 이미지 생성이 상호 독립적이거나 비동기적으로 이루어져, 모달리티 간의 심각한 불일치(contradiction)가 발생하고 이를 사후 수정할 수 없다는 한계가 있습니다.

#Review #Masked Diffusion Models #Multimodal Generation #Coupled Markov Jump Processes #Self-Correction #Remasking #Visual Reasoning

2026년 7월 16일

[논문리뷰] Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

본 논문은 Multimodal CoT가 과연 모든 멀티모달 작업에서 일관되게 성능을 향상시키는지, 그리고 그 한계점은 무엇인지를 체계적으로 분석합니다. 최근 텍스트 중심 LLM에서는 CoT가 추론 능력을 극대화하는 표준으로 자리 잡았으나, 이를 멀티모달 영역으로 확장했을 때의 효용성은 여전히 불분명합니다.

#Review #Multimodal Chain-of-Thought #Visual Reasoning #LLM #Test-Time Scaling #Visual Reflection #Attention Bias

2026년 6월 24일

[논문리뷰] Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

본 논문은 기존의 단일 체인 추론(Single-chain Reasoning) 방식이 시각적 추론 과정에서 범하는 조기 지각적 확신(Early Perceptual Commitment)과 환각(Hallucination) 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Large Language Models #Multi-Agent Framework #Visual Reasoning #Role-Decoupled Optimization #Inference Efficiency

2026년 6월 11일

[논문리뷰] Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

본 연구는 기존의 텍스트 기반 CoT(Chain-of-Thought)가 가지는 비효율성과 multimodal 태스크에서의 표현력 한계를 해결하고자 한다.

#Review #Optical Reasoning #Multimodal Large Language Models #Chain-of-Thought #Context Compression #Interleaved-modal Reasoning #Visual Reasoning

2026년 6월 8일

[논문리뷰] TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

본 연구는 시각적 추론(visual reasoning)을 위한 RL 학습 시, 정적 데이터셋(static datasets)이 가진 한계를 극복하기 위해 수행되었습니다.

#Review #Reinforcement Learning #Visual Reasoning #Online Environment #Multimodal Large Language Models #Rule-Verifiable #Curriculum Learning

2026년 6월 2일

[논문리뷰] Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

본 논문은 기존의 Chart QA 벤치마크가 VLM의 진정한 시각적 추론 능력을 정확히 측정하지 못하고, 단순한 시각적 패턴 매칭이나 사전 학습된 파라메트릭 지식에 의한 '지름길(Shortcut)'을 활용하고 있다는 문제를 제기합니다.

#Review #Vision-Language Models #Chart QA #Counterfactual Generation #Visual Reasoning #Shortcut Learning #Generalization

2026년 5월 27일

[논문리뷰] ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

본 논문은 기존 Visual Reasoning 기법들이 직면한 연산 효율성 및 아키텍처 호환성 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Functional Token #LA-GRPO #Autoregressive Generation #Multimodal LLM #Agentic Reasoning

2026년 5월 14일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .

#Review #Visual Generative Models #Visual Reasoning #Evaluation Benchmark #Chain-of-Thought #Process-Outcome Evaluation

2026년 4월 1일

[논문리뷰] MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

기존의 multimodal agent는 전체 interaction history를 기억하거나 trajectory 단위로 과거 경험을 검색하는 방식을 주로 사용해왔습니다.

#Review #Multimodal Agent #Stateful Experience #Hindsight Reasoning #Compositional State Representation #Deep-and-Wide Search #Visual Reasoning

2026년 3월 30일

[논문리뷰] Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Large Language Models (LLMs)는 Chain-of-Thought prompting과 같은 확장된 추론을 통해 상당한 발전을 이루었지만, 이를 Multi-modal Large Language Models (MLLMs)로 확장하는 것은 여전히 큰 도전 과제입니다.

#Review #Visual Reasoning #Image Understanding #Video Understanding #Multi-Agent System #Reinforcement Learning #Self-Evolving

2026년 3월 23일

[논문리뷰] XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Multimodal 에이전트는 복잡한 시각적 추론 task와 다양한 툴을 처리할 수 있게 되었지만, 여전히 비효율적인 툴 사용과 open-ended 환경에서의 유연하지 않은 orchestration이라는 두 가지 근본적인 병목 현상에 직면해 있습니다.

#Review #Multimodal Agents #Continual Learning #Experience Learning #Skill Learning #Tool Use #Knowledge Base #Visual Reasoning

2026년 3월 12일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Agents #Visual Reasoning #Tool Use #Benchmark #Long-Horizon Tasks #Realistic Scenarios #Agentic Intelligence

2026년 3월 5일

[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.

#Review #Referring Expression Comprehension #MLLM #Visual Reasoning #Benchmark Dataset #Hard Distractors #Grounding Shortcuts #Chain-of-Thought #Negation

2026년 3월 1일

[논문리뷰] Imagination Helps Visual Reasoning, But Not Yet in Latent Space

본 논문은 Multimodal Large Language Models (MLLMs)에서 잠재 공간(latent space)을 활용한 시각적 추론(Latent Visual Reasoning, LVR)의 효과와 내재된 메커니즘을 심층적으로 분석하고, 그 한계를 극복하기 위한 대안적인 접근 방식을 제시하는 것을 목표로 합니다.

#Review #Visual Reasoning #Latent Space #Causal Mediation Analysis #Multimodal LLMs #Textual Imagination #Model Interpretation #Latent Tokens

2026년 2월 26일

[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

본 논문은 기존 통합 멀티모달 모델들이 단일 패스로만 작동하여 반복적인 개선 없이 출력을 생성하는 한계를 지적합니다. 복잡한 공간 구성, 다중 객체 상호작용, 진화하는 지침 등 다단계 추론과 자가 수정이 필요한 멀티모달 작업에서 이러한 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal AI #Chain-of-Thought #Test-time Scaling #Unified Models #Iterative Reasoning #Image Generation #Visual Reasoning #Self-Correction

2026년 2월 17일

[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.

#Review #Reinforcement Learning #Visual Reasoning #Vision-Language Models #Causal Probing #Model Merging #Parameter Analysis #Transformer Layers #Functional Localization

2026년 2월 15일

[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Metaphor Understanding #Visual Reasoning #Reinforcement Learning #MLLMs #TFQ-GRPO #End-to-End Learning #Cognitive AI

2026년 2월 12일

[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #Video Generation #Visual Reasoning #Zero-Shot Generalization #Test-Time Scaling #Visual Context #Sequential Planning #Continuous Manipulation

2026년 2월 5일

[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.

#Review #Multimodal AI #Agentic Intelligence #Vision-Language Models #Parallel Agent Orchestration #Reinforcement Learning #Joint Optimization #Visual Reasoning #Software Engineering

2026년 2월 2일

[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Tool Orchestration #Visual Reasoning #Reinforcement Learning #Adaptive Learning #Generalization #Tool Use

2026년 1월 27일

[논문리뷰] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

본 논문은 비디오 모델을 텍스트-투-이미지(T2I) 생성의 '순수한 시각적 추론기'로 활용하여, 기존 T2I 모델의 시각적 추론 시작점 부재와 중간 단계의 불명확성 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Video Models #Visual Reasoning #Chain-of-Frame (CoF)#Progressive Refinement #Diffusion Models #CoF-Evol-Instruct

2026년 1월 15일

[논문리뷰] BabyVision: Visual Reasoning Beyond Language

최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Benchmark #Early Vision #Spatial Perception #Visual Tracking #Pattern Recognition #Generative Models

2026년 1월 12일

[논문리뷰] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

기존 Multimodal Large Language Models (MLLMs) 이 시각적 수학 문제 해결에서 낮은 정확도와 일관성 없는 추론을 보이는 문제를 해결하는 것이 목표입니다. 특히, 시각적 정보 추출 후 이 정보가 추론 과정에 충실히 통합되고 활용되는지를 보장하지 못하는 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Mathematical Problem Solving #Knowledge Internalization #Reinforcement Learning #Cognitive-Inspired AI #Perception-Reasoning Alignment

2026년 1월 6일

[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Visual Search #Foundation Models #Multi-agent Systems #Reinforcement Learning #Benchmarking #Visual Reasoning

2025년 12월 28일

[논문리뷰] Latent Implicit Visual Reasoning

본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Visual Reasoning #Latent Tokens #Visual Bottlenecking #Implicit Learning #Task-agnostic #Attention Mechanisms

2025년 12월 25일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

본 논문은 Masked Diffusion Models (MDMs)의 주요 비효율성, 즉 KV 캐싱 미지원 과 불필요한 마스크 토큰 처리 로 인한 느린 추론 속도 문제를 해결하고자 합니다. 특히, 멀티모달 태스크 전반에서 성능 저하 없이 효율성을 크게 향상시키는 새로운 모델링 프레임워크 를 제안하는 것이 목표입니다.

#Review #Discrete Diffusion Models #Multimodal Models #Sparse Parameterization #KV Caching #Token Truncation #Image Generation #Image Editing #Visual Reasoning

2025년 12월 16일

[논문리뷰] V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions

본 논문은 기존 VLM이 복잡하고 개방형인 시각 추론 태스크에서 다단계 탐색 및 동적 계획 수립에 어려움을 겪는 문제를 해결하고자 합니다. 대규모 탐색 공간으로 인해 평가하기 어려운 VLM의 탐색적 시각 추론 능력을 정량적으로 평가하기 위한 벤치마크 ( V-REX ) 및 평가 프로토콜을 개발하는 것을 목표로 합니다.

#Review #Visual Reasoning #Multi-step Exploration #Chain-of-Questions (CoQ)#Vision-Language Models (VLMs)#Benchmarking #Planning #Following

2025년 12월 15일

[논문리뷰] Thinking with Images via Self-Calling Agent

본 논문은 희소한 고품질 추론 데이터로 인해 강화 학습을 통한 MLLM의 Interleaved Multimodal Chain-of-Thought (iMCoT) 최적화가 어렵다는 문제점을 해결하고자 합니다.

#Review #Multimodal LLMs #Self-Calling Chain-of-Thought #Reinforcement Learning #Visual Reasoning #Agentic AI #Tool Calling #Group Relative Policy Optimization

2025년 12월 11일

[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

본 논문은 기존 멀티모달 보상 모델(Reward Models, RMs)이 겪는 환각, 약한 시각적 접지(visual grounding), 그리고 검증을 위한 도구 사용 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reward Models #Agentic AI #Tool Use #Reinforcement Learning #Visual Reasoning #Multimodal LLMs #Instruction Following #Evaluation Benchmarks

2025년 12월 4일

[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video

기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reinforcement Learning #Visual Reasoning #Generalist Model #Image Understanding #Video Understanding #Multitask Learning #EMA-GRPO

2025년 12월 3일

[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning #Generalization #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT #Maze Solving

2025년 12월 2일

[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning

기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning #Object Grounding #Object Detection #Structured Output

2025년 12월 2일

[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Structural Output #Information Extraction #JSON Schema #SO-Bench #Visual Reasoning #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 30일

[논문리뷰] Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

현재 MLLM(Multimodal Large Language Models) 이 각 문제를 de novo 방식으로 해결하며 시각적 주의 집중 및 논리적 추론 오류를 반복하는 한계를 극복하는 것이 목표입니다.

#Review #Multimodal LLMs #Semantic Memory #Agentic Learning #Error Attribution #Visual Reasoning #Long-term Memory #Grow-and-Refine #Multimodal Reasoning

2025년 11월 27일

[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning

본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.

#Review #Visual Reasoning #Synthetic Environment #LVLM Evaluation #Reinforcement Learning #Cognitive Primitives #Procedural Generation #Multimodal AI

2025년 11월 26일

[논문리뷰] GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

본 연구는 기존 에이전트 시각 추론 모델들이 주로 이미지 조작 도구에 집중하여 일반적인 목적으로 확장하기 어려운 한계를 해결하고자 합니다.

#Review #Geolocalization #Agentic Models #Visual Reasoning #Web-Augmented #Multimodal LLMs #Reinforcement Learning #Tool Use #GeoBench

2025년 11월 23일

[논문리뷰] Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

본 논문은 기존의 단일(monolithic) VLM(Vision-Language Model)이 가진 정밀성, 결정론적 제어 및 복합적 시각 작업 처리 능력의 한계를 극복하고자 합니다.

#Review #Visual Agent #Multimodal Perception #Tool-Augmented LLM #Agentic AI #Visual Reasoning #Computer Vision #Structured Outputs #ReAct Framework

2025년 11월 18일

[논문리뷰] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

기존 Large Vision-Language Models (LVLMs) 강건성 벤치마크들이 환각이나 오해의 소지가 있는 텍스트 입력에만 집중하고, 시각적 이해 평가에서 오해의 소지가 있는 시각적 입력 을 간과하는 문제를 해결하는 것이 목표입니다.

#Review #LVLM Robustness #Misleading Visual Inputs #VQA Benchmark #Visual Perception #Visual Reasoning #MVI-Sensitivity #Multimodal AI

2025년 11월 18일

[논문리뷰] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

본 논문은 기존의 이미지-투-비디오(I2V) 생성 모델 평가 벤치마크가 시각적 충실도와 시간적 일관성에 집중하여 고차원적인 추론 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generative Models #Visual Reasoning #Benchmarking #Image-to-Video #TiViBench #VideoTPO #Prompt Optimization

2025년 11월 17일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.

#Review #Multimodal LLMs #Benchmark #Cognitive Capacity #Visual Reasoning #MLLM Evaluation #Error Analysis #Chain-of-Thought

2025년 11월 9일

[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

본 논문은 중간 시각 이미지를 생성하는 것이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위한 새로운 벤치마크인 MIRA (Multimodal Imagination for Reasoning Assessment) 를 제안합니다.

#Review #Multimodal AI #Visual Reasoning #Chain-of-Thought (CoT)#Benchmark #Image Generation #MLLMs #Visual-CoT

2025년 11월 9일

[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.

#Review #Chart Comprehension #Visual Reasoning #Data Generation #Code-Driven Pipeline #Multimodal LLMs #Retrieval-Augmented Generation #Reinforcement Learning #Synthetic Data

2025년 11월 9일

[논문리뷰] Video models are zero-shot learners and reasoners

본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.

#Review #Video Models #Zero-shot Learning #Visual Reasoning #Foundation Models #Generative AI #Perception #Manipulation #Modeling

2025년 9월 25일

[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Visual Reasoning #Reflection #Reinforcement Learning #Visual Attention #Slow Thinking #Multimodal Agents

2025년 9월 16일

[논문리뷰] Reinforced Visual Perception with Tools

본 논문은 멀티모달 대규모 언어 모델(LLM)이 복잡한 시각적 추론 문제를 해결하고 외부 시각 도구를 효과적으로 활용하는 능력을 강화하는 것을 목표로 합니다. 기존 지도 학습(SFT) 기반 접근 방식의 한계인 고비용 데이터 생성, 섬세한 데이터 필터링 필요성, 그리고 제한된 일반화 능력을 극복하고자 합니다.

#Review #Visual Reasoning #Multimodal LLMs #Reinforcement Learning #Tool Usage #Perception-heavy Benchmarks #GRPO #Vision Tools

2025년 9월 9일

[논문리뷰] Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

본 논문은 복잡한 시각 환경에서 Vision-Language Models (VLMs) 의 추론 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Visual Reasoning #Attention Mechanisms #Contrastive Learning #Noise Suppression #Visual Complexity #Training-Free

2025년 9월 9일

[논문리뷰] Thyme: Think Beyond Images

본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Code Generation #Image Processing #Reinforcement Learning #Supervised Fine-Tuning #Visual Reasoning #Sandbox

2025년 8월 18일

[논문리뷰] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

본 연구는 대규모 시각-언어 모델(LVLM)의 자기 개선 과정에서 발생하는 '매튜 효과'를 해결하는 것을 목표로 합니다.

#Review #LVLMs #Self-Improvement #Matthew Effect #Data Bias Mitigation #Distribution Reshaping #Trajectory Resampling #Visual Reasoning

2025년 10월 31일

[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

본 연구는 최신 비디오 생성 모델, 특히 Veo-3 가 복잡한 시각적 추론 시나리오에서 제로샷 추론자(zero-shot reasoner) 로서 얼마나 준비되었는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Video Generation Models #Zero-Shot Reasoning #Visual Reasoning #MME-COF Benchmark #Chain-of-Frame Reasoning #Temporal Coherence #Spatial Reasoning

2025년 10월 31일

[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models

통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.

#Review #Unified Vision-Language Models #Reinforcement Learning #Multimodal Alignment #Pairwise Training #Group Relative Policy Optimization #Data Augmentation #Text-to-Image Generation #Visual Reasoning

2025년 10월 30일

[논문리뷰] Rethinking Visual Intelligence: Insights from Video Pretraining

Large Language Models (LLMs)의 성공에도 불구하고 시각 도메인에서 구성적 이해, 샘플 효율성, 범용 문제 해결 의 한계가 지속되고 있습니다.

#Review #Video Diffusion Models #Visual Intelligence #Pretraining #Foundation Models #Low-resource Learning #Inductive Biases #Visual Reasoning #Image-to-Image Tasks

2025년 10월 29일

[논문리뷰] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs

Multimodal Large Language Models (MLLMs)가 복잡한 시각적 계획과 상상력을 요구하는 시나리오에서 겪는 어려움을 해결하고, MLLM에 내부 시각적 스크래치패드(visual scratchpad) 를 부여하여 시각적 사고(visual thought) 를 통해 멀티모달 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Latent Space #Sketch Generation #Visual Thinking #Autoregressive Generation #Interpretability

2025년 10월 29일

[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.

#Review #Video Reward Models #Multimodal Reasoning #Thinking-with-Image #Visual Reasoning #Reinforcement Learning #Chain-of-Thought #Context Management

2025년 10월 17일

[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Object Grounding #Fine-grained Perception #Hybrid Region Encoder #Plug-and-play #Two-stage Training #Visual Reasoning

2025년 10월 2일