#Multimodal Large Language Models (MLLMs)

43개의 포스트

[논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

본 논문은 기존 자동화된 오디오-비주얼 QA 파이프라인의 “비디오-캡션-QA” 패러다임이 가진 근본적인 한계를 해결하고자 합니다 . 기존 연구들은 비디오를 독립적인 짧은 클립으로 분할하여 처리함으로써 시청각 모달리티 간의 결합을 파괴하고 개체 기술의 불일치를 초래합니다.

#Review #Audio-Visual Reasoning #Instruction-tuning #Entity-Anchored Scripting #Clue-Guided QA Generation #Multimodal Large Language Models (MLLMs)#Evidence Chains

2026년 6월 14일

[논문리뷰] World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning

본 논문은 미래지향적 시각 추론에서 World Models와 MLLMs를 결합할 때 발생하는 신뢰성 문제를 해결하고자 합니다. 기존의 단순한 결합 방식은 생성된 Rollout이 확률적이고 때로는 작업상 부정확할 수 있음에도 불구하고, 이를 에이전트가 효과적으로 제어하지 못한다는 한계가 있습니다 .

#Review #World Models #Multimodal Large Language Models (MLLMs)#Controlled Concrete Reasoning #Privileged-Future On-Policy Self-Distillation (PF-OPSD)#Future Prediction #Simulation-Control

2026년 6월 2일

[논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

본 논문은 기존의 UAV SAR 연구들이 전통적인 비전 및 경로 계획 방식에 국한되어 있어, 복잡한 환경에서의 자율적 의사결정 능력을 평가할 통합된 벤치마크가 부족하다는 점을 지적합니다.

#Review #Embodied AI #Search and Rescue (SAR)#UAV #Multimodal Large Language Models (MLLMs)#Simulation Platform #Benchmark

2026년 5월 5일

[논문리뷰] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

최근의 MLLMs 는 입력 정보의 정밀도(fidelity)를 높여 성능을 향상시키지만, 이는 과도한 visual token의 증가로 이어져 고해상도와 긴 시간적 맥락(long temporal context)을 동시에 유지하는 것을 불가능하게 만듭니다.

#Review #Multimodal Large Language Models (MLLMs)#Input-side Adaptation #Contextual Bandit #Cost-Aware Policy Optimization (CAPO)#Visual Budgeting #Efficient Inference #Temporal Reasoning

2026년 3월 30일

[논문리뷰] Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

기존의 Multimodal Large Language Models (MLLMs)는 2D 시각 신호에 과도하게 고정되어 3D 환경에 대한 구조화된 추상화를 구축하지 못함으로써 3D 공간 추론(spatial reasoning)에서 어려움을 겪습니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Textual Representation #Allocentric Context #Egocentric Video #Prompting Methods #VSI-Bench #OST-Bench

2026년 3월 25일

[논문리뷰] UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Multimodal Large Language Models (MLLMs)의 발전과 함께 자율 모바일 GUI Agent에 대한 관심이 증가하고 있지만, 기존 방법론들은 비효율적인 실패 궤적(failed trajectory) 학습과 장기(long-horizon) GUI 태스크에서 희소한 보상(sparse rewards)에 따른 모호한 Credit Assignment 문제에 직면하고 있습니다.

#Review #GUI Agent #Self-Evolving Learning #Rejection Fine-Tuning (RFT)#Group Relative Self-Distillation (GRSD)#Credit Assignment #Sparse Rewards #Mobile Automation #Multimodal Large Language Models (MLLMs)

2026년 3월 25일

[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

최근 Multimodal Large Language Models (MLLMs)는 인상적인 Semantic Capability를 보여주지만, Fine-grained geometric reasoning 및 Physical dynamics와 관련된 'Spatial blindness' 문제를 겪고 있습니다.

#Review #Video Generation Models #3D Priors #Scene Understanding #Spatial Reasoning #Multimodal Large Language Models (MLLMs)#Latent World Simulator #Adaptive Gated Fusion #Generative AI

2026년 3월 19일

[논문리뷰] Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Multimodal Large Language Models (MLLMs)는 자연스러운 장면 해석에서 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 Discrete Symbols 처리 능력은 여전히 중요한 미해결 과제로 남아 있습니다.

#Review #Multimodal Large Language Models (MLLMs)#Discrete Symbols #Cognitive Mismatch #Symbol Understanding #Benchmark #Recognition-Reasoning Inversion #Human Cognition

2026년 3월 19일

[논문리뷰] Video-CoE: Reinforcing Video Event Prediction via Chain of Events

비디오 태스크에 대한 MLLM 애플리케이션의 발전에도 불구하고, VEP 는 상대적으로 미개척 상태로 남아있습니다.

#Review #Video Event Prediction (VEP)#Multimodal Large Language Models (MLLMs)#Chain of Events (CoE)#Logical Reasoning #Visual Grounding #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)

2026년 3월 18일

[논문리뷰] Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

최근 MLLMs 는 비디오-기반 Supervised Fine-tuning (Video-SFT) 을 통해 시각적 이해 능력을 크게 발전시켜왔습니다. 그러나 Video-SFT 가 시각적 능력의 미세한 진화, 특히 공간적 이해와 시간적 이해 사이의 균형에 미치는 영향은 아직 제대로 연구되지 않았습니다.

#Review #Multimodal Large Language Models (MLLMs)#Video-SFT #Temporal Trap #Spatial Understanding #Temporal Budget #Hybrid-Frame Strategy #Negative Transfer

2026년 3월 18일

[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning #Code-Grounded Perception #Image-to-Code Translation #Data Generation #Benchmark #Reinforcement Learning #Matplotlib

2026년 3월 11일

[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

이 연구는 기존 비디오-명령어 데이터가 불완전하고 세분화된 정보 및 신뢰성 있는 주석이 부족하여 범용적인 비디오 이해 MLLM 의 성능을 제약하는 문제를 해결하고자 합니다.

#Review #Video Understanding #Multimodal Large Language Models (MLLMs)#Instruction Tuning #Data Curation #Attribute-Structured Data #Quality Verification #Temporal Grounding #Video Captioning

2026년 2월 15일

[논문리뷰] Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

본 논문은 멀티모달 대조 학습(multimodal contrastive learning)에서 시각 및 언어 표현 정렬에도 불구하고 발생하는 Modality Gap 이라는 기하학적 이상 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Modality Gap #Subspace Alignment #Unpaired Data #Representation Learning #Pretraining #Geometric Alignment

2026년 2월 9일

[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

본 논문은 Multimodal Large Language Models (MLLMs)가 실제 환경의 극심한 시각적 열화(visual degradations) 조건에서 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Degradation #Robustness #Reasoning Chains #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning #Interpretability

2025년 12월 21일

[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Diffusion Models #Image Generation #Video Generation #Image Editing #Video Editing #Latent Space Planning #Canvas Tokens #Information Transfer

2025년 12월 14일

[논문리뷰] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

본 연구는 주로 자연 이미지에 훈련된 Multimodal Large Language Models (MLLMs) 의 적외선 이미지 이해 능력이 미개척 상태임을 문제로 인식하고 있습니다.

#Review #Multimodal Large Language Models (MLLMs)#Infrared Image Understanding #Benchmark Dataset #Visual Question Answering (VQA)#Generative Visual Prompting (GenViP)#Domain Adaptation #Image-to-Image Translation

2025년 12월 10일

[논문리뷰] Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

본 논문은 MLLM이 시각 및 언어 모달리티에 걸쳐 동일한 의미를 가진 정보에 대해 일관된 추론 능력 을 보이는지 체계적으로 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Cross-Modal Consistency #Reasoning Inconsistency #OCR Performance #Modality Gap #Benchmarking #Render Equivalence

2025년 12월 9일

[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

본 연구는 기존 MLLM이 3D 공간 추론 및 객체 속성 이해에 어려움을 겪는 문제를 해결하고자 합니다. 단일 통합 MLLM이 공간 지각 능력을 내재적으로 향상 시키고, 적응형의 인터리브드 추론 을 통해 더욱 강력한 공간 지능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Spatial Reasoning #Perception Enhancement #Auxiliary Modalities #Adaptive Interleaved Reasoning #Reinforcement Learning #Chain-of-Thought

2025년 12월 7일

[논문리뷰] DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존 MLLM 기반 텍스트-투-이미지(T2I) 생성 모델의 두 가지 주요 한계점, 즉 텍스트 기반 계획의 추상성과 희귀 속성 조합 생성의 어려움을 해결하는 것을 목표로 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought (CoT)#Multimodal Large Language Models (MLLMs)#Visual Planning #Rare Concept Generation #Drafting #Classifier-Free Guidance (CFG)#Image Refinement

2025년 12월 4일

[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.

#Review #Adversarial Attack #Multimodal Large Language Models (MLLMs)#Entropy Maximization #Confusion Attack #Black-box Transfer #PGD #AI Agent Safety

2025년 12월 3일

[논문리뷰] Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

본 논문은 멀티모달 대규모 언어 모델(MLLM)에서 고해상도 이미지 및 비디오 처리 시 발생하는 과도한 메모리 소비 및 추론 지연 시간 문제 를 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Token Pruning #Graph-Structured Pruning (GSP)#Query-Conditioned Semantic Pruning (QCSP)#Determinantal Point Processes (DPP)#Model Efficiency #Visual Redundancy

2025년 12월 1일

[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language

본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.

#Review #Latent Visual Reasoning #Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking

2025년 11월 26일

[논문리뷰] MedSAM3: Delving into Segment Anything with Medical Concepts

의료 영상 분할 분야에서 기존 모델들의 일반화 부족과 광범위한 수동 주석 요구 사항을 해결하고, 순전히 기하학적 프롬프트에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Segment Anything Model (SAM)#Promptable Concept Segmentation (PCS)#Multimodal Large Language Models (MLLMs)#Agentic AI #Domain Adaptation #Text-guided Segmentation

2025년 11월 25일

[논문리뷰] AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

본 논문은 3D 환경에서 자연어 명령을 기반으로 물체의 상호작용 가능한 요소(affordance elements)를 식별하고, 해당 요소의 3D 마스크 , 동작 유형 , 동작 축 방향 을 포함하는 구조화된 트립렛을 예측하는 Fine-grained 3D Embodied Reasoning 이라는 새로운 태스크를 제안합니다.

#Review #3D Embodied Reasoning #Multimodal Large Language Models (MLLMs)#Chain-of-Thought (CoT)#Affordance Grounding #Motion Estimation #View Synthesis #Active Perception

2025년 11월 13일

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Multi-Video Understanding #Evaluation Benchmark #Video Perception #Video Reasoning #Sports Analytics #Autonomous Driving

2025년 11월 10일

[논문리뷰] When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

이 논문은 Multimodal Large Language Models (MLLMs)가 서로 다른 모달리티에서 모순되는 정보를 받았을 때 어떤 모달리티를 따를지 ( modality following ) 결정하는 과정을 이해하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Modality Following #Unimodal Uncertainty #Modality Preference #Conflict Resolution #Internal Mechanism #Entropy #Controllable Dataset

2025년 11월 9일

[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Geometric Reasoning #Visual Perception #Reinforcement Learning (RL)#Two-stage Training #GeoPQA Benchmark #Perceptual Bottleneck

2025년 9월 23일

[논문리뷰] MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

논문은 MARS2 2025 Challenge 를 통해 멀티모달 기계 학습 및 LLM 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Language Models (LLMs)#Multimodal Large Language Models (MLLMs)#Visual Grounding #Visual Question Answering #Advertisement Video Analysis #Real-world Scenarios #Challenge Benchmark

2025년 9월 18일

[논문리뷰] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

본 논문은 복잡한 추론 문제에서 뛰어난 성능을 보이는 기존 MLLM의 step-by-step 사고(thinking) 과정이 단순 문제에서는 불필요한 연산 오버헤드를 유발하는 비효율성을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Auto-Thinking #Reinforcement Learning (RL)#Bi-mode Annealing #Bi-mode Policy Optimization (BPO)#General-Purpose AI #Reasoning #Efficiency

2025년 9월 1일

[논문리뷰] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

기존 비디오 아바타 모델이 오디오 리듬에 국한된 물리적 애니메이션만 생성하는 한계를 넘어, 감정, 의도, 문맥을 깊이 이해하여 의미론적으로 일관되고 표현력이 풍부한 캐릭터 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Video Avatar Generation #Cognitive Simulation #Multimodal Large Language Models (MLLMs)#Diffusion Transformers (DiT)#Multimodal Fusion #Human Motion Synthesis #Contextual Animation

2025년 8월 27일

[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models

기존 MLLM 수학 추론 벤치마크들이 대부분 깨끗하거나 전처리된 이미지를 사용하는 한계를 극복하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Math Reasoning #Real-World Benchmark #Visual Perception #Robustness #K-12 Education #Dataset

2025년 8월 14일

[논문리뷰] Reinforcement Learning in Vision: A Survey

본 연구는 강화 학습(RL)과 시각 지능의 교차점에서 발전한 에이전트의 현황을 체계적으로 종합합니다.

#Review #Reinforcement Learning (RL)#Computer Vision (CV)#Multimodal Large Language Models (MLLMs)#Visual Generation #Vision-Language-Action (VLA) Models #Policy Optimization #Reward Modeling

2025년 8월 12일

[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.

#Review #Design-to-Code #Webpage Generation #Multimodal Large Language Models (MLLMs)#Layout Preservation #Chain-of-Thought (CoT)#UI Automation #Code Generation

2025년 8월 7일

[논문리뷰] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 순수 텍스트 추론이나 부정확한 증거 지역화로 인해 종종 발생시키는 근거 없는/환각적 결론의 문제를 해결하고, 다단계 비디오 추론 능력을 강화하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models (MLLMs)#Reinforcement Learning (RLVR)#Evidence Grounding #Multi-step Reasoning #Frame Retrieval #Dataset Construction #Progressive Learning

2025년 10월 24일

[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.

#Review #Image Segmentation #Autoregressive Generation #Multimodal Large Language Models (MLLMs)#Visual Understanding #VQ-VAE #Multi-scale Prediction #Referring Expression Segmentation #Image Generation

2025년 10월 24일

[논문리뷰] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

본 논문은 MLLM의 이미지 입력으로 인한 추론 비용 증가 문제를 해결하고, 이미지의 의미론적 복잡성 에 따라 가변적인 수의 시각 토큰을 사용하여 이미지를 효율적으로 표현하는 새로운 훈련 전략을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Dynamic Resolution #Token Compression #Semantic Awareness #Visual Consistency Learning (ViCO)#Visual Resolution Router (ViR)#Inference Optimization

2025년 10월 15일

[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.

#Review #Experiment Video Understanding #Multimodal Large Language Models (MLLMs)#Scientific Reasoning #Benchmark #Wet-Lab Experiments #Procedural Understanding #Fine-grained Perception #Video QA

2025년 10월 15일

[논문리뷰] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

본 논문은 현대 다중 모달 대규모 언어 모델(MLLMs) 이 물리적 도구를 얼마나 깊이 이해하는지 정량적으로 평가하는 것을 목표로 합니다. 특히, 임베디드 AI 에이전트가 실제 환경에서 도구를 효과적으로 사용하고, 심지어 새로운 도구를 만들어내는 데 필요한 물리적 도구 이해 능력의 현황과 한계를 파악하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Physical Tool Understanding #Benchmarking #Embodied AI #Visual Question Answering (VQA)#Tool Affordances #Reasoning

2025년 10월 13일

[논문리뷰] Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

기존 MLLM이 시각 작업을 위해 텍스트로 좌표를 생성하는 등 간접적인 표현 방식 에 의존하여 성능이 제한되고 분할(Segmentation)과 같은 밀집 예측(Dense Prediction) 작업 이 어려웠던 문제를 해결하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Reference Tokens (VRTs)#Dense Prediction #Referring Expression Comprehension (REC)#Open-Vocabulary Detection (OVD)#Image Captioning #Unified Architecture #Autoregressive Generation

2025년 10월 9일

[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

대부분의 기존 egocentric vision 벤치마크가 주간 시나리오에 집중하여 야간의 저조도 환경을 간과하는 문제를 해결하고자 합니다.

#Review #Egocentric Vision #Nighttime Conditions #Visual Question Answering (VQA)#Day-Night Alignment #Multimodal Large Language Models (MLLMs)#Depth Estimation #Correspondence Retrieval #Benchmark

2025년 10월 8일

[논문리뷰] Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

본 논문은 기존 의료 AI 모델의 모달리티별 단편화 문제를 해결하고, 의료 이미지(방사선, 병리학)와 임상 보고서 간의 통합적인 생성 능력 을 갖춘 범용 의료 AI 에이전트를 개발하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Multimodal Large Language Models (MLLMs)#Medical Image Generation #Medical Report Generation #Multimodal Generation #Medical AI #Cross-modal Alignment

2025년 10월 8일

[논문리뷰] CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

본 연구는 방사선학 MLLM 에서 시각적 입력과 불일치하는 의료 환각(medical hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Radiology Report Generation (RRG)#Medical Hallucinations #Contrastive Decoding #Training-free Inference #Clinical AI #Visual Question Answering (VQA)

2025년 10월 8일

[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey

이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Self-Improvement #Data Collection #Data Organization #Model Optimization #Survey #Reinforcement Learning #Direct Preference Optimization

2025년 10월 6일