#Large Multimodal Models (LMMs)

12개의 포스트

[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Cold-Start Initialization #Attention Mechanism #Visual Grounding #Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis #Visual Attention Score (VAS)

2026년 3월 9일

[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Image Editing #Instruction-based Models #Small Object Editing #Benchmark #Evaluation Metrics #Large Multimodal Models (LMMs)#Visual Consistency

2026년 3월 1일

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Implicit Reasoning #Benchmark #Evaluation #Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)

2026년 2월 5일

[논문리뷰] Latent Implicit Visual Reasoning

본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Visual Reasoning #Latent Tokens #Visual Bottlenecking #Implicit Learning #Task-agnostic #Attention Mechanisms

2025년 12월 25일

[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.

#Review #Visual Generation #Textual Reasoning #Interleaving #Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)

2025년 11월 20일

[논문리뷰] Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

본 연구는 웹 에이전트가 인간의 인지 추론과 유사하게 동작하도록, 충분한 지식을 습득하여 효과적인 추론 능력을 갖추는 것을 목표로 합니다. 특히, Bloom의 교육 분류학 에서 영감을 받아 지식 내용 학습과 인지 과정이라는 두 가지 필수 단계로 웹 에이전트의 역량을 분해하여 해결하고자 합니다.

#Review #Web Agent #Cognitive Reasoning #Knowledge-Induced #Large Multimodal Models (LMMs)#Bloom's Taxonomy #Chain-of-Thought (CoT)#Web-CogDataset #Web-CogBench

2025년 8월 7일

[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.

#Review #Medical VQA #Large Multimodal Models (LMMs)#Data Synthesis #Generator-Verifier Framework #Rubric-Guided #Reinforcement Learning (RL)#Context-Aware

2025년 10월 31일

[논문리뷰] MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models

본 연구는 대규모 멀티모달 모델(LMM)이 시간에 따라 변화하는 사실적 지식을 정확하게 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Time-Sensitive Knowledge #Temporal Reasoning #Knowledge Editing #Multimodal Benchmarking #Temporal Awareness #Dynamic Knowledge

2025년 10월 23일

[논문리뷰] Video Reasoning without Training

본 논문은 Large Multimodal Models (LMMs) 기반 비디오 추론 시 발생하는 높은 연산 비용과 추론 과정 제어의 한계 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Inference-Time Optimization #Entropy-Based Objective #Training-Free #KV-Cache Steering #Micro-Exploration #Macro-Exploitation

2025년 10월 22일

[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Scientific Document Analysis #Multimodal Inconsistencies #Peer Review #Benchmark #Debiasing #JSON-based Representation #Reasoning

2025년 10월 22일

[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning #Diagram Generation #Dataset #Benchmark

2025년 10월 17일

[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Post-training #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)

2025년 10월 7일