#Multimodal LLM

39개의 포스트

[논문리뷰] SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning

기존의 다중 모달 가드레일 모델들은 대부분 고정된 분류 체계(Static Taxonomy)에 의존하며, 배포 환경이나 정책 변화에 따라 유연하게 대응하지 못하는 한계가 있습니다. 특히 고정된 레이블을 사용하는 기존 모델은 미학습된 규칙이나 새로운 정책 상황에서 성능이 급격히 저하되는 문제가 발생합니다.

#Review #Multimodal LLM #Guardrail #Policy-Adaptive #Dynamic Reasoning #Fast-Slow Decoupled RL #Safety Benchmark

2026년 6월 28일

[논문리뷰] Personal AI Agent for Camera Roll VQA

본 연구는 사용자 개인의 Camera Roll 전체를 대상으로 대화형 AI가 사진을 검색하고 질의에 응답하는 VQA 설정에서의 한계를 해결하고자 한다.

#Review #Personal AI Agent #Camera Roll #Visual Question Answering #Long-horizon Memory #Hierarchical Memory #Multimodal LLM #Agentic Workflow

2026년 6월 4일

[논문리뷰] From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

기존의 Diffusion-based 이미지 편집 모델들은 '모자를 추가하라'와 같은 명확하고 구체적인 작업에는 우수한 성능을 보이지만, '광고를 채식주의자 친화적으로 바꾸라'와 같은 추상적이고 다단계의 장기적인(long-horizon) 지시사항을 처리하는 데에는 한계가 있습니다.

#Review #Long-horizon #Image Editing #Planner-Orchestrator #Experiential Learning #Reward-driven #Multimodal LLM #Diffusion Models

2026년 5월 17일

[논문리뷰] ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

본 논문은 기존 Visual Reasoning 기법들이 직면한 연산 효율성 및 아키텍처 호환성 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Functional Token #LA-GRPO #Autoregressive Generation #Multimodal LLM #Agentic Reasoning

2026년 5월 14일

[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.

#Review #Multimodal LLM #Reinforcement Learning #On-Policy Distillation #Distributional Drift #Mixture-of-Experts (MoE)#Adversarial Alignment

2026년 5월 5일

[논문리뷰] VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

본 논문은 자율형 GUI 에이전트가 직면한 early stopping과 repetitive loops라는 두 가지 근본적인 문제를 해결하기 위해 VLAA-GUI를 제안합니다. 기존 에이전트들은 작업 완료 여부를 불명확하게 판단하여 미완성 상태에서 성공을 선언하거나, 동일한 실패 행동을 반복적으로 수행하는 한계를 보입니다.

#Review #GUI Automation #Agentic Framework #Completeness Verifier #Loop Breaker #Search Agent #Multimodal LLM

2026년 4월 23일

[논문리뷰] UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model

본 논문은 통합 멀티모달 대규모 언어 모델(MLLM)이 요구하는 고충실도 재구성, 복합적인 의미 추출 및 생성 적합성을 동시에 지원하는 시각적 표현을 제공하는 문제를 해결하고자 합니다.

#Review #Multimodal LLM #Visual Tokenizer #Binary Codebook #Image Generation #Semantic Extraction #Pre-Post Distillation #Hybrid Architecture

2026년 2월 16일

[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

본 논문은 대규모 언어 모델(LLM)이 긴 탐색 경로와 많은 상호작용이 필요한 심층 검색 태스크를 수행할 때 겪는 어려움, 특히 고품질 훈련 데이터 부족과 높은 상호작용 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Search #Multimodal LLM #Task Synthesis #Agentic Mid-Training #Reinforcement Learning #Tool-Augmented Agents #Web Search

2026년 2월 16일

[논문리뷰] MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

인간 모션 이해 및 생성 분야에서 제한적인 추론 능력 과 테스트 시간 계획의 한계 를 극복하는 것을 목표로 합니다. 이를 위해, 모션 이해와 생성을 통합하는 단일 멀티모달 모션 모델 을 제안하여, 논리적 추론과 지각적 사실성을 동시에 개선하고자 합니다.

#Review #Motion Understanding #Motion Generation #Reinforcement Learning #Chain-of-Motion #Multimodal LLM #Human Motion Synthesis #Text-to-Motion

2026년 2월 16일

[논문리뷰] MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

본 논문은 Multimodal Large Language Models (MLLMs) 에서 발생하는 교차 모달리티 환각 현상(cross-modal hallucinations) 을 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Cross-modal Hallucination #Contrastive Decoding #Modality-Adaptive Decoding #Self-Assessment #Audio-Visual Language Model #Training-Free

2026년 1월 29일

[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

본 논문은 다양한 과학 도메인에 걸쳐 멀티모달 이해 및 추론 을 발전시키고, 동시에 일반 비전 태스크에서 우수한 성능을 유지하는 과학 멀티모달 대규모 언어 모델(MLLM) 인 Innovator-VL을 제시합니다.

#Review #Multimodal LLM #Scientific AI #Data Efficiency #Reinforcement Learning #Vision-Language Model #Scientific Reasoning #Reproducible AI

2026년 1월 28일

[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

컴퓨터 비전 모델이 긴 서사적 일관성을 유지하지 못하고, 대화 같은 고수준의 아이디어와 시네마틱 실행 간의 '의미론적 간극'을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 단순 대화 입력만으로 장기적이고 일관성 있는 시네마틱 비디오를 자동 생성하는 엔드투엔드 프레임워크를 개발하고자 합니다.

#Review #Dialogue-to-Video Generation #Agentic AI #Cinematic Scripting #Long-Horizon Video Synthesis #Visual Coherence #Reinforcement Learning #Multimodal LLM

2026년 1월 26일

[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.

#Review #Composed Image Retrieval #Fine-Grained Evaluation #Image Editing #Benchmark #Multimodal LLM #Synthetic Data #Compositional Reasoning

2026년 1월 22일

[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

본 논문은 일반적인 Large Vision-Language Models (LVLMs) 이 피부과 진단에서 겪는 '확산 주의(diffuse attention)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 미묘한 병리학적 병변을 배경 노이즈로부터 분리하지 못해 정보 전달 효율성이 저하되는 현상입니다.

#Review #Dermatological Diagnosis #Multimodal LLM #Reinforcement Learning #Dynamic Visual Encoding #Information Transmission #Clinically Grounded Evaluation

2026년 1월 14일

[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

비디오 이해 태스크에서 Chain-of-Thought (CoT) 추론의 필요성과 이점을 재평가하고, 기존 CoT 방식이 때로는 직접 답변보다 성능이 낮고 비효율적임을 지적합니다. 이를 바탕으로, 필요한 경우에만 추론을 수행하여 효율성과 정확성을 동시에 개선하는 적응형 비디오 추론 프레임워크 를 개발하는 것이 목표입니다.

#Review #Video Understanding #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Adaptive Reasoning #Early Exit #Multimodal LLM #Video QA #Temporal Grounding

2026년 1월 8일

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Sounding Video #Video Comprehension #Video Generation #Audio-Video Synchronization #Instruction Tuning #Diffusion Model #Encoder-Decoder

2025년 12월 31일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI Agents

GUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.

#Review #GUI Agents #Reinforcement Learning #Context-aware #History Compression #Policy Optimization #Multimodal LLM #Dynamic Sampling

2025년 12월 1일

[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.

#Review #Multimodal LLM #Human Cognition #Image Perception #Benchmarking #Supervised Fine-tuning #Image Generation #Aesthetics #Memorability

2025년 11월 30일

[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?

본 논문은 기존 MLLM 평가 방식이 캡션의 실제 활용성, 즉 다운스트림 태스크에서 이미지를 대체할 수 있는 능력 을 간과한다고 지적합니다.

#Review #Image Captioning #Caption Evaluation #Multimodal LLM #Utility-based Benchmark #Question Answering (QA)#Domain-specific Taxonomy #Hallucination #MLLM Evaluation

2025년 11월 30일

[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning

기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Semantic Planning #Multimodal LLM #Diffusion Transformer #Spatio-temporal Guidance #Visual Hallucination #Prompt Alignment #Instruction Following

2025년 11월 24일

[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

본 연구는 기존 LLM 도구 사용 벤치마크 들이 주로 텍스트 기반이고 선형적인 API 계획 에 초점을 맞추는 한계를 넘어, 멀티모달 LLM(MLLM) 에이전트 의 실제와 같은 도구 사용 능력을 평가하기 위한 첫 번째 벤치마크인 M³-Bench 를 제안합니다.

#Review #Multimodal LLM #Tool Use #Agent Benchmark #Model Context Protocol #Multi-Hop Reasoning #Multi-Threaded Execution #Evaluation Metrics #Similarity Alignment

2025년 11월 24일

[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

본 연구는 현미경 이미지 분석을 위한 대규모 고품질 멀티모달 질의응답(VQA) 데이터셋의 부족 이라는 문제점을 해결하여, 멀티모달 대규모 언어 모델(MLLM)의 현미경 과학 추론 능력을 향상시키는 것을 목표로 합니다. 기존 데이터셋의 제한된 규모와 낮은 난이도로 인한 MLLM 학습의 한계를 극복하고자 합니다.

#Review #Microscopy VQA #Multimodal LLM #Weak Supervision #Graph Neural Networks #Dataset Generation #Biomedical Imaging #Scientific Reasoning #Cross-Modal Consistency

2025년 11월 17일

[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

본 논문은 멀티모달 환경에서 쿼리 증강(query augmentation)으로 인한 과도한 임베딩 지연 시간 과 일부 쿼리에서의 성능 저하 문제를 해결하고, 쿼리 증강의 효과를 높이는 것을 목표로 합니다.

#Review #Multimodal Embedders #Query Augmentation #Adaptive Learning #Multimodal LLM #Information Retrieval #Generative AI #Embedding Latency

2025년 11월 9일

[논문리뷰] LongCat-Flash-Omni Technical Report

LongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multimodal LLM #Real-time Interaction #Mixture-of-Experts (MoE)#Streaming Inference #Distributed Training #Curriculum Learning #Audio-Visual Perception

2025년 11월 9일

[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

본 논문은 기존 GUI 에이전트의 데이터 병목 현상, 지연된 오류 탐지의 높은 비용, 모순된 지침 등의 문제점을 해결하고자 합니다.

#Review #Mobile GUI Automation #Multi-Agent System #Cognitive Architecture #Pre-execution Alignment #Post-execution Reflection #Retrieval-Augmented Generation #Multimodal LLM #Deliberative AI

2025년 9월 29일

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일

[논문리뷰] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

본 논문은 복잡한 실제 시나리오를 시뮬레이션하는 고충실도 3D 가상 환경 을 생성하는 데 초점을 맞추어, sim-to-real 격차 를 줄이고 풍부한 데이터를 효율적으로 수집하는 것을 목표로 합니다.

#Review #Multimodal LLM #3D World Generation #Unreal Engine 5 #Procedural Content Generation #Interactive Environments #Sim-to-Real #Spatial Understanding #Multimodal Input

2025년 9월 8일

[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning

이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.

#Review #GUI Agent #Foundational Model #Multimodal LLM #Perception #Planning #Reinforcement Learning #Data Engineering #Chinese App Scenarios

2025년 9월 1일

[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.

#Review #Multimodal LLM #Code Generation #Model Merging #Task Vectors #Vision-Language Model #Coding LLM #Instruction Tuning #Benchmark

2025년 8월 14일

[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

본 연구는 강력한 추론 능력을 유지하면서도 고품질 시각적 합성 기능을 LLM에 통합하는 것을 목표로 합니다. 특히, 기존 방식들이 높은 훈련 비용을 수반하고 백본 LLM의 이미지 표현 학습 부족으로 어려움을 겪는 문제를 해결하여, 고충실도 및 제어 가능한 이미지 생성을 효율적으로 달성하고자 합니다.

#Review #Multimodal LLM #Diffusion Model #CLIP Latent #Image Generation #Multimodal Understanding #ControlNet #Training Efficiency

2025년 8월 12일

[논문리뷰] L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks

본 논문은 기존 대규모 언어 모델(LLMs)이 MOF(Metal-Organic Frameworks)와 같은 복잡한 3D 결정질 재료의 설계 및 이해에 필요한 다면적인 표현 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLM #Metal-Organic Frameworks (MOFs)#Materials Discovery #Crystal Representation Learning #Instruction Tuning #Structure-Property Prediction #Knowledge Generation

2025년 10월 31일

[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

기존 MLLM이 지식 집약적 시각 질의응답(VQA)에서 겪는 정보 부족, 정체된 데이터, 비효율적인 검색 쿼리 등의 한계를 극복하기 위해, 멀티모달 LLM이 온디맨드 다중 턴 웹 검색 을 수행하고 이미지와 텍스트 검색 도구 모두에 대해 동적으로 쿼리를 생성 및 개선 하는 능력을 부여하는 것을 목표로 합니다.

#Review #Multimodal LLM #Web Search #Visual Question Answering #Reinforcement Learning #Image Cropping #Self-Correction #Tool Use

2025년 10월 15일

[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.

#Review #Medical AI #Spine Diagnosis #Multimodal LLM #Benchmark #Dataset #Clinical Reasoning #Spine Surgery #Vision-Language Model

2025년 10월 6일

[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

본 논문은 제한된 레이블 데이터와 풍부한 비레이블 이미지를 활용하여 Multimodal Large Language Models (MLLMs) 가 의료 영상이나 기술 콘텐츠와 같은 Out-of-Distribution (OOD) 특화 도메인 의 시각 질의응답 (VQA) 태스크에 효율적으로 적응하도록 하는 것을 목표로 합니다.

#Review #Multimodal LLM #OOD Adaptation #Label Efficiency #VQA #Semi-Supervised Learning #Neuron Distillation #Pseudo Labeling #Medical Imaging

2025년 10월 6일

[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.

#Review #Video Generation #Subject Consistency #Cross-Modal Integration #Diffusion Models #Multimodal LLM #Diffusion Transformer #Text-to-Video

2025년 10월 2일

[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

본 논문은 텍스트 전용 사전 훈련을 통해 대규모 언어 모델(LLM)이 시각적 세계에 대해 습득하는 내재된 시각적 사전 지식(visual priors)의 구조와 기원 을 체계적으로 밝히는 것을 목표로 합니다.

#Review #LLM Visual Priors #Language Pre-training #Multimodal LLM #Data Mixture Optimization #Reasoning Prior #Perception Prior #VQA #MLE-Bench

2025년 10월 1일

[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.

#Review #GUI Agents #On-Device AI #Multimodal LLM #GUI Grounding #GUI Navigation #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data

2025년 10월 1일