#Multimodal Large Language Models

60개의 포스트

[논문리뷰] EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

본 논문은 기존의 Diffusion 기반 3D 생성 모델들이 의미론적 이해(semantic understanding)와 기하학적 추론(geometric reasoning)을 분리하여 처리함으로써 발생하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Mixture-of-Transformers #3D Native Generation #Context-aware Editing #Flow Matching #Sparse Voxel Representation

2026년 6월 1일

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

본 연구는 기존 MLLM의 공간 지능 벤치마크가 대부분 깨끗하고 이상적인 환경(Pristine visual inputs)만을 가정하여, 실제 환경에서 발생하는 다양한 시각적 퇴화를 간과하고 있다는 문제를 해결한다.

#Review #Multimodal Large Language Models #Spatial Intelligence #Visual Degradation #3D Gaussian Splatting #Robustness #Benchmarking #Degradation-aware Training

2026년 5월 21일

[논문리뷰] Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?

본 논문은 MLLM이 인적 자원 관리나 정신 건강 진단 등 인간 중심적인 역할에 배치되면서 핵심적으로 요구되는 성격 인식(personality perception) 능력을 진단하고자 합니다.

#Review #Multimodal Large Language Models #Personality Perception #Grounded Personality Reasoning #MM-OCEAN #Prejudice Gap #Holistic-Grounding Rate #Apparent Personality Recognition

2026년 5월 21일

[논문리뷰] LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

본 논문은 기존의 Explicit Text CoT 기반 MLLM이 고차원 오디오-비주얼 정보를 텍스트라는 좁은 병목으로 압축함에 따라, 다중 모달 간의 세밀한 시간적 정렬과 의미적 연결을 놓치는 문제를 해결하고자 한다.

#Review #Multimodal Large Language Models #Audio-Visual Reasoning #Latent Reasoning #Cross-modal Alignment #Chain-of-Thought #Instruction Tuning

2026년 5월 21일

[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion

본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.

#Review #Video Diffusion #Multimodal Large Language Models #Latent Semantic Planning #Diffusion Transformer #Video Editing #Chain-of-Thought

2026년 5월 21일

[논문리뷰] Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

본 논문은 GUI 에이전트의 일반화 성능을 저해하는 대규모 학습 데이터의 부족 문제를 해결하고자 합니다. 기존 연구들은 고비용의 수동 주석 데이터셋이나 제한적인 시뮬레이션 환경에 의존하여 확장성에 한계를 보입니다.

#Review #GUI Agent #Pretraining #Interaction Trajectory #Multimodal Large Language Models #Scalable Data Synthesis #Action Grounding

2026년 5월 20일

[논문리뷰] IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

본 논문은 MLLM의 강력한 제로샷 성능에도 불구하고, 고도의 정밀함이 요구되는 산업 환경에서 도메인 불일치 및 구조적 환각(structural hallucination)으로 인해 발생하는 이상 탐지 성능 저하 문제를 해결합니다 .

#Review #Industrial Anomaly Detection #Multimodal Large Language Models #Agentic Framework #Reinforcement Learning #Tool Augmentation #Zero-shot Learning

2026년 5월 20일

[논문리뷰] Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

본 논문은 현대의 MLLM이 실시간 환경에서의 상호작용 능력을 평가할 수 있는 표준화된 벤치마크와 평가 방법론이 부족하다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Real-time Duplex Interaction #Streaming Video Understanding #Benchmark #Proactive Interaction

2026년 5월 19일

[논문리뷰] Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

본 연구는 빠르게 발전하는 Video Generation 모델들의 품질을 정밀하게 평가하기 위한 표준화된 도구가 부족하다는 점을 해결하고자 한다. 현재의 Video Generation 모델들은 뛰어난 시각적 결과물을 제공하지만, 여전히 고유한 형태의 시각적 오류인 아티팩트를 빈번하게 발생시킨다.

#Review #Multimodal Large Language Models #AI-Generated Videos #Artifact Detection #Video Quality Assessment #Benchmarking

2026년 5월 19일

[논문리뷰] CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

본 논문은 현대 MLLM의 Doc-VQA 평가 방식이 최종 답변의 정답 여부에만 지나치게 의존하여, 실제 추론의 근거가 되는 시각적 증거의 정확성을 검증하지 못한다는 문제를 지적합니다.

#Review #Multimodal Large Language Models #Document Visual Question Answering #Evidence Attribution #Trustworthy AI #Strict Attributed Accuracy #Attribution Hallucination

2026년 5월 17일

[논문리뷰] PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

기존의 MLLM들은 인간의 시야각과 유사한 perspective-image 패러다임에 의존하여 360° 환경을 파악하는 데 한계를 보입니다.

#Review #Multimodal Large Language Models #Panorama #Equirectangular Projection #Spatial Reasoning #Spatial Supersensing #Instruction Tuning

2026년 5월 14일

[논문리뷰] Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

본 연구는 기존의 이미지 미학 평가 방식인 Scalar Score 예측이 인간의 실제 비교 선호도를 충실히 반영하지 못한다는 문제를 제기합니다. 기존 연구들은 독립적인 점수 매기기를 통해 순위를 도출하는데, 이는 annotator 간의 의견 불일치와 모호한 미적 기준을 야기합니다.

#Review #Multimodal Large Language Models #Visual Aesthetic Benchmark #Comparative Ranking #Expert Consensus #Aesthetic Evaluation #Fine-tuning

2026년 5월 13일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] Anisotropic Modality Align

MLLM 학습은 고품질의 쌍(paired) 멀티모달 데이터 부족이라는 고질적인 문제에 직면해 있으며, 이를 해결하기 위해 공유 임베딩 공간에서 unimodal 데이터를 정렬하는 방식이 주목받고 있다.

#Review #Multimodal Large Language Models #Modality Gap #Unpaired Alignment #Anisotropic Geometric Correction #Representation Learning

2026년 5월 10일

[논문리뷰] OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

본 논문은 해양 데이터의 파편화와 도메인 특화 데이터의 부재로 인해 발생하는 해양 인공지능(Marine AI)의 성능 병목 현상을 해결하고자 한다.

#Review #Multimodal Large Language Models #Marine Science #Foundation Models #Data Corpus #Instruction Tuning #Sonar Detection

2026년 5월 4일

[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training

본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.

#Review #Vision Transformer #Generative Pre-training #Multimodal Large Language Models #Gated Attention #Vision-Language Pre-training #Minimalist Architecture

2026년 5월 3일

[논문리뷰] UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

본 논문은 현대 AI 생태계에서 이미지 생성과 생성된 이미지 탐지가 서로 밀접하게 연관되어 있음에도 불구하고, 기존 연구들이 이들을 독립적으로 최적화한다는 점을 핵심 문제로 정의합니다.

#Review #Multimodal Large Language Models #AI-Generated Image Detection #Image Generation #Co-evolutionary Learning #Unified Architecture #Feature Alignment

2026년 4월 23일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective

본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.

#Review #Generative Spatial Intelligence #Multimodal Large Language Models #Image Editing #Benchmark #Sim-to-Real Transfer

2026년 4월 22일

[논문리뷰] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

본 연구는 29개의 기존 데이터셋에서 추출한 1,804개의 샘플을 바탕으로 9가지 유형의 편향을 분석하는 MM-JudgeBias 벤치마크를 구축하였다. 제안된 프레임워크는 각 샘플에 대해 편향되지 않은(unbiased) triplet과 편향을 주입한(biased) triplet을 생성하여 평가 결과의 차이를 비교한다.

#Review #Multimodal Large Language Models #MLLM-as-a-Judge #Compositional Bias #Benchmark #Bias-Deviation #Bias-Conformity

2026년 4월 21일

[논문리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs

본 논문은 기존 MLLM이 고정된 컨텍스트 윈도우와 'one-size-fits-all' 패러다임에 갇혀, 시간이 지남에 따라 변하는 사용자의 취향과 성격을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Long-term Personalization #Memory Architecture #Personality Alignment #Agent Framework #Reinforcement Learning

2026년 4월 19일

[논문리뷰] Small Vision-Language Models are Smart Compressors for Long Video Understanding

저자들은 SVLM을 로컬 압축기로 활용하여 긴 비디오를 쿼리 의존적인 메모리 토큰으로 변환하는 Tempo 프레임워크를 제안합니다 . Tempo는 각 세그먼트에서 쿼리와 시각적 정보를 결합한 교차 모달 증류(cross-modal distillation)를 수행하며, ATA 기법을 통해 추론 시점의 토큰 예산(예: 4K/8K)을 엄격히 준수합니다.

#Review #Multimodal Large Language Models #Long Video Understanding #Visual Token Compression #Adaptive Token Allocation #Cross-modal Distillation

2026년 4월 9일

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일

[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

본 논문은 기존 MLLM이 언어적 능력에 비해 공간 이해 능력(거리 측정, 다중 뷰 일관성 등)이 현저히 떨어지는 'Spatial Myopia' 문제를 해결하고자 한다. 기존 연구들은 고정된 데이터셋만을 배포할 뿐, 공간 데이터를 생성하는 엔진 자체를 비공개로 운영하여 데이터의 확장성과 재현성을 저해하고 있다.

#Review #Spatial Intelligence #Data Engine #3D Bounding Boxes #Multimodal Large Language Models #Data Scaling #3D Lifting

2026년 4월 9일

[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Constrained Policy Optimization #Chain-of-Thought #Visual Spatial Reasoning #Lagrangian Relaxation #Faithfulness

2026년 4월 9일

[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .

#Review #Multimodal Large Language Models #Agentic Systems #Reinforcement Learning #Hierarchical Decoupled Policy Optimization #Meta-Cognitive Tool Use #Efficiency #Reasoning

2026년 4월 9일

[논문리뷰] Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

본 논문은 Q-Zoom이라는 2단계 적응형 프레임워크를 통해 시각적 인지 효율성을 개선한다. 첫 번째 단계인 Dynamic Gating Network는 consistency-aware 훈련 전략을 통해 고해상도 처리가 불필요한 쿼리를 식별하여 우회함으로써 불필요한 계산을 줄인다.

#Review #Multimodal Large Language Models #Efficient Perception #Dynamic Gating #Region Proposal Network #Self-Distillation #High-Resolution Adaptation

2026년 4월 8일

[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.

#Review #Video Understanding #Multimodal Large Language Models #Benchmark #Reasoning Coherence #Capability Consistency #Evaluation Hierarchy #Non-linear Scoring

2026년 4월 7일

[논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

본 논문은 정적인 과학 그래픽을 편집 가능한 TikZ 코드로 역공학(Reverse-engineering)하는 과정에서 발생하는 엄격한 공간적 제약 문제를 해결하고자 합니다.

#Review #Graphics Program Synthesis #TikZ #Reinforcement Learning #Multimodal Large Language Models #Self-Consistency #Round-Trip Verification

2026년 4월 7일

[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding

본 논문은 기존의 UME 파이프라인이 가진 효율성과 추론 능력 사이의 trade-off 문제를 해결하고자 합니다. 기존의 Explicit CoT UME 기법들은 중간 추론을 위해 수백 개의 토큰을 생성해야 하므로 높은 inference latency와 비용을 유발하며, 이는 실제 서비스 환경에 적합하지 않습니다.

#Review #Universal Multimodal Embedding #Latent Reasoning #Multimodal Large Language Models #Chain-of-Thought #Semantic-Anchor-Guided #Curriculum Learning

2026년 4월 6일

[논문리뷰] Token Warping Helps MLLMs Look from Nearby Viewpoints

본 논문은 토큰을 변환 단위로 사용하는 Token Warping 프레임워크를 제안하며, 특히 Backward Token Warping이 안정성과 의미론적 일관성 측면에서 가장 우수함을 입증한다. 와 는 MLLM 토큰이 위치 잡음에 강건하다는 점을 증명하며, 이를 바탕으로 시점 변환 시 토큰 기반의 역투영 기법을 적용한다.

#Review #Multimodal Large Language Models #Token Warping #Viewpoint-Aware Reasoning #Spatial Reasoning #Mental Imagery

2026년 4월 5일

[논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

본 논문은 MLLM이 단순한 관찰자에서 능동적 에이전트로 진화함에 따라, 시각적 조작과 지식 검색의 결합 능력을 체계적으로 평가할 필요성을 제기합니다. 기존의 벤치마크들은 도구 통합의 유연성이 부족하거나, 시각적 도구와 웹 검색을 독립적으로 평가하여 이들의 Synergy 를 간과하고 있습니다.

#Review #Multimodal Large Language Models #Agentic Capability #Visual Expansion #Knowledge Expansion #Process-Verified Benchmark #Synergistic Reasoning

2026년 4월 5일

[논문리뷰] Automatic Image-Level Morphological Trait Annotation for Organismal Images

본 논문은 Sparse Autoencoders(SAE)와 Multimodal Large Language Models(MLLM)을 결합한 모듈형 자동 주석 파이프라인을 제안합니다. 우선 DINOv2 백본을 통해 추출된 특징에 SAE를 학습시켜 공간적으로 명확한 형태학적 부분을 담당하는 뉴런을 식별합니다.

#Review #Sparse Autoencoders #Morphological Trait Annotation #Multimodal Large Language Models #Fine-grained Visual Recognition #Biological Foundation Models

2026년 4월 2일

[논문리뷰] VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

긴 비디오 이해(Long Video Understanding)는 MLLM의 제한된 Context Window 때문에 여전히 어려운 과제이며, 이는 쿼리 관련성이 높은 희소한 비디오 세그먼트를 식별해야 할 필요성을 야기합니다.

#Review #Long Video Understanding #Multimodal Large Language Models #Video Question Answering #Graph Neural Networks #Active Inference #Belief Propagation #Spatio-Temporal Graph

2026년 3월 23일

[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

최근 MLLMs는 External Tools와의 통합을 통해 Agentic Problem Solvers로 발전하고 있으나, 복잡한 Visual Tasks를 위해 다양한 도구를 정확하게 실행하고 효과적으로 조합하는 데 지속적인 병목 현상(persistent bottleneck)을 겪고 있습니다.

#Review #Multimodal Large Language Models #Visual Tool Chaining #Agentic Models #Benchmark #OpenCV #Compositional Reasoning #Tool-use Evaluation

2026년 3월 19일

[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Multimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다.

#Review #Streaming Video Reasoning #Multi-Turn Interaction #Segment-Level Memory #Causal Mask #Positional Encoding #Dual KV Cache #Multimodal Large Language Models

2026년 3월 15일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Reasoning Modes #Hybrid Autoregressive #Latent Visual Reasoning #Dynamic Mode Selection #Supervised Fine-tuning #Vision-Language Tasks

2026년 2월 5일

[논문리뷰] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

본 논문은 기존 멀티모달 딥 리서치 MLLM들이 겪는 히트율 문제(검색 엔진의 노이즈와 불안정성) 및 제한된 추론 깊이/검색 폭 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Deep Research #Agentic AI #Tool Use #Visual Question Answering #Reinforcement Learning #Multi-scale Search

2026년 2월 2일

[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Deep Research #Benchmark #Visual Search #Textual Search #Cropped Search #Evaluation

2026년 2월 2일

[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model

본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.

#Review #Multimodal Large Language Models #Cognitive Reasoning #Visual Imagery #Latent Representations #Reinforcement Learning #Visual Question Answering #Benchmark

2026년 2월 2일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] ViDiC: Video Difference Captioning

본 논문은 동적 비디오 시퀀스 간의 시각적 차이를 이해하고 설명하는 Video Difference Captioning (ViDiC) 이라는 새로운 태스크를 제안합니다.

#Review #Video Difference Captioning #Multimodal Large Language Models #Video Understanding #Comparative Reasoning #Evaluation Benchmark #LLM-as-a-Judge #ViDiC-1K

2025년 12월 3일

[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Editing #Reasoning-Enhanced AI #Multimodal Large Language Models #Diffusion Transformers #Thinking #Reflection #Iterative Refinement #Instruction Following

2025년 11월 30일

[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

MLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Post-training #Reasoning #Dual-Reward System #Thinking Reward #Judging Reward #Hallucination Reduction

2025년 11월 9일

[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Temporal Reasoning #Reinforcement Learning #Process Supervision #Dynamic Time Warping #Multimodal Large Language Models #Video State Prediction #Reward Hacking

2025년 9월 26일

[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Reinforcement Learning #Cultural Heritage #Ancient Greek Pottery #Supervised Fine-Tuning #Benchmark

2025년 9월 23일

[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

AI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.

#Review #GUI Agent #Human-GUI Interaction #Cognitive Modeling #Reinforcement Learning #Multimodal Large Language Models #Attention Mechanisms #Action Planning

2025년 9월 22일

[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

본 논문은 입력 텍스트 질의를 기반으로 비디오 내에서 대상의 시공간 튜브(spatio-temporal tube)를 찾아내는 시공간 비디오 그라운딩(STVG) 태스크에서, MLLM(Multimodal Large Language Models) 의 잠재력을 활용하여 제로샷(zero-shot) 해결책 을 제시하는 것을 목표로 합니다.

#Review #Spatio-Temporal Video Grounding #Multimodal Large Language Models #Zero-Shot Learning #Visual Grounding #Decomposed Spatio-Temporal Highlighting #Logit-Guided Re-attention #Temporal-Augmented Assembling

2025년 9월 19일

[논문리뷰] Measuring Epistemic Humility in Multimodal Large Language Models

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 환각(hallucination) 문제를 해결하고, 특히 모델이 불확실한 상황에서 잘못된 정보를 확신하지 않고 '모르는 것을 모른다고 인정하는' 능력 , 즉 인식론적 겸손(epistemic humility) 을 측정하는 새로운 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Hallucination #Epistemic Humility #Benchmark #False-Option Rejection #Visual Question Answering #Scene Graph

2025년 9월 16일

[논문리뷰] WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

본 논문은 Multimodal Large Language Models (MLLMs) 의 상징적 음악 분석 및 추론 능력에 대한 실세계 적용 가능성을 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Symbolic Music Reasoning #Music Score Analysis #Benchmarking #Visual Question Answering #In-the-Wild Data #Music Theory

2025년 9월 8일

[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Inference Efficiency #Vision-Language Models #Open-Source #Versatility #Reasoning

2025년 8월 26일

[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.

#Review #Multimodal Large Language Models #Video Recommendation #Zero-Shot Learning #Content-Based Filtering #Natural Language Processing #Foundation Models

2025년 8월 20일

[논문리뷰] MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

본 논문은 고자원 언어에 집중되어 저자원 언어에서 성능이 저하되는 기존 다중 모드 대규모 언어 모델(MLLM) 의 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Low-Resource Languages #Cultural Groundedness #Linguistic Capability #Dataset Creation #Multilingual AI

2025년 8월 11일

[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning

본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models #Reinforcement Learning #Chain-of-Thought #Video Understanding #Temporal Grounding #Video Captioning #Autonomous Tool Use

2025년 10월 30일

[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Survey #Benchmarks #3D Vision #Embodied AI #Vision-Language Navigation

2025년 10월 30일

[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Data Curation #Supervised Fine-tuning #Chain-of-Thought #Open-source AI #Data Quality #MLLM Training

2025년 10월 16일

[논문리뷰] Detect Anything via Next Point Prediction

본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Object Detection #Coordinate Prediction #Reinforcement Learning #Supervised Fine-tuning #Visual Perception #Zero-shot Learning #Spatial Reasoning

2025년 10월 15일

[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

본 논문은 기존 Compositional MLLMs의 분리된 훈련으로 인한 불분명한 멀티모달 스케일링 속성 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Native MLLMs #Scaling Laws #Data Constraints #Visual Encoder #LLM Initialization #Mixture-of-Experts #End-to-end Training

2025년 10월 10일