[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal Reasoning#Cold-Start Initialization#Attention Mechanism#Visual Grounding#Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis#Visual Attention Score (VAS)2026년 3월 9일댓글 수 로딩 중
[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.#Review#Image Editing#Instruction-based Models#Small Object Editing#Benchmark#Evaluation Metrics#Large Multimodal Models (LMMs)#Visual Consistency2026년 3월 1일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Latent Implicit Visual Reasoning본 논문은 현재 대규모 멀티모달 모델(LMMs) 이 텍스트 중심적 추론에 치우쳐 있어 시각적 정보 처리가 많이 필요한 추론 태스크에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Large Multimodal Models (LMMs)#Visual Reasoning#Latent Tokens#Visual Bottlenecking#Implicit Learning#Task-agnostic#Attention Mechanisms2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.#Review#Visual Generation#Textual Reasoning#Interleaving#Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents본 연구는 웹 에이전트가 인간의 인지 추론과 유사하게 동작하도록, 충분한 지식을 습득하여 효과적인 추론 능력을 갖추는 것을 목표로 합니다. 특히, Bloom의 교육 분류학 에서 영감을 받아 지식 내용 학습과 인지 과정이라는 두 가지 필수 단계로 웹 에이전트의 역량을 분해하여 해결하고자 합니다.#Review#Web Agent#Cognitive Reasoning#Knowledge-Induced#Large Multimodal Models (LMMs)#Bloom's Taxonomy#Chain-of-Thought (CoT)#Web-CogDataset#Web-CogBench2025년 8월 7일댓글 수 로딩 중
[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.#Review#Medical VQA#Large Multimodal Models (LMMs)#Data Synthesis#Generator-Verifier Framework#Rubric-Guided#Reinforcement Learning (RL)#Context-Aware2025년 10월 31일댓글 수 로딩 중
[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning#Diagram Generation#Dataset#Benchmark2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Post-training#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)2025년 10월 7일댓글 수 로딩 중
[논문리뷰] MINED: Probing and Updating with Multimodal Time-Sensitive Knowledge for Large Multimodal Models본 연구는 대규모 멀티모달 모델(LMM)이 시간에 따라 변화하는 사실적 지식을 정확하게 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Large Multimodal Models (LMMs)#Time-Sensitive Knowledge#Temporal Reasoning#Knowledge Editing#Multimodal Benchmarking#Temporal Awareness#Dynamic Knowledge2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Video Reasoning without Training본 논문은 Large Multimodal Models (LMMs) 기반 비디오 추론 시 발생하는 높은 연산 비용과 추론 과정 제어의 한계 를 해결하고자 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Inference-Time Optimization#Entropy-Based Objective#Training-Free#KV-Cache Steering#Micro-Exploration#Macro-Exploitation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.#Review#Large Multimodal Models (LMMs)#Scientific Document Analysis#Multimodal Inconsistencies#Peer Review#Benchmark#Debiasing#JSON-based Representation#Reasoning2025년 10월 22일댓글 수 로딩 중