#Vision-Language Models

184개의 포스트

[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

본 논문은 Spatial Intelligence를 구축하는 데 있어 VLM과 VGM 중 어느 사전 학습(Pre-training) 패러다임이 더 우수한 표현 체계(Representation substrate)를 제공하는지 분석한다 .

#Review #Spatial Intelligence #Vision-Language Models #Video Generation Models #Frozen-Feature Probing #Representation Learning #Semantic Tagging #3D Geometry Prediction

2026년 6월 1일

[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .

#Review #Video Generation Models #Video Reasoning #Vision-Language Models #Test-Time Optimization #LoRA #Differentiable Rewards

2026년 6월 1일

[논문리뷰] StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

본 연구는 기존 Video World Models가 nominal한 미래 예측에만 의존하여, 로봇 정책의 실패 가능성이나 위험한 이벤트를 과소평가(under-explore)하는 문제를 해결하고자 합니다.

#Review #Video World Models #Diffusion Models #Inference-time Steering #Robust Policy Evaluation #Typical Set #Vision-Language Models

2026년 6월 1일

[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Embodied AI #Robustness #Physical Visual Stress #Benchmark #Inverse Graphics #Test-Time Rectification

2026년 6월 1일

[논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding

본 논문은 기존의 elastic vision-token compression 방식들이 가진 근본적인 표현력 한계를 극복하고자 한다.

#Review #Vision-Language Models #Token Compression #Elastic Inference #Matryoshka Representation Learning #Pool-Conditioned Query Resampling #Efficient Multimodal Learning

2026년 6월 1일

[논문리뷰] Brain-IT-VQA: From Brain Signals to Answers

본 논문은 기존의 fMRI 기반 시각적 재구성 및 VQA 연구들이 가진 성능적 한계와 신경과학적 해석의 어려움을 해결하고자 합니다.

#Review #fMRI #Visual Question Answering #Brain Decoding #Vision-Language Models #Brain-IT #NSD-VQA

2026년 6월 1일

[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #3D Modeling #Procedural Generation #Vision-Language Models #Agentic Workflow #Benchmark #Human-Preference #Blender

2026년 6월 1일

[논문리뷰] Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

본 논문은 기존의 spatial reasoning 벤치마크들이 시각적 관측이 항상 충분하고 신뢰 가능하다는 비현실적인 가정에 의존하고 있다는 점을 지적합니다.

#Review #Vision-Language Models #Spatial Reasoning #Observational Uncertainty #Abstention #Occlusion #Perspective Ambiguity #Embodied AI

2026년 5월 31일

[논문리뷰] Benchmarking Composed Image Retrieval for Applied Earth Observation

본 논문은 Earth Observation(EO) 아카이브 탐색 시 사용자의 구체적인 의도를 반영하기 어려운 기존의 단일 모달(이미지 혹은 텍스트) 검색 방식의 한계를 해결하고자 한다.

#Review #Remote Sensing Image Retrieval #Composed Image Retrieval #Multimodal Retrieval #Vision-Language Models #Earth Observation #Benchmarking

2026년 5월 31일

[논문리뷰] LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

본 논문은 최신 VLM들이 텍스트 질문을 그에 대응하는 렌더링된 이미지로 교체했을 때 발생하는 성능 저하 문제, 즉 carrier sensitivity 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Modality Gap #Carrier Sensitivity #Local Modality Substitution #Supervised Fine-Tuning #Cross-modal Alignment

2026년 5월 28일

[논문리뷰] Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

본 논문은 현대의 Vision-Language Models(VLMs)가 3D 공간 추론에서 겪는 근본적인 한계를 해결하고자 합니다.

#Review #Vision-Language Models #3D Spatial Reasoning #Geometric Priors #Correspondence Learning #Depth Consistency #Object Constancy

2026년 5월 28일

[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence

본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.

#Review #Embodied Intelligence #Vision-Language Models #Generative Supervision #Depth Map Prediction #Diffusion Transformer #Robot Manipulation #Spatiotemporal Planning

2026년 5월 27일

[논문리뷰] Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

본 논문은 기존의 Chart QA 벤치마크가 VLM의 진정한 시각적 추론 능력을 정확히 측정하지 못하고, 단순한 시각적 패턴 매칭이나 사전 학습된 파라메트릭 지식에 의한 '지름길(Shortcut)'을 활용하고 있다는 문제를 제기합니다.

#Review #Vision-Language Models #Chart QA #Counterfactual Generation #Visual Reasoning #Shortcut Learning #Generalization

2026년 5월 27일

[논문리뷰] Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

본 논문은 vision-language models(VLMs)의 agentic reasoning 과정에서 발생하는 '도구 사용의 비효율성' 문제를 해결하고자 합니다.

#Review #Multimodal Agentic Reasoning #Reinforcement Learning #GRPO #AXPO #Tool-call Resampling #Thinking-Acting Gap #Vision-Language Models

2026년 5월 27일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] DocAtlas: Multilingual Document Understanding Across 80+ Languages

본 논문은 기존 Document Understanding 모델들이 다국어 데이터 처리 및 문서 구조 파악에서 겪는 한계를 극복하기 위해 DocAtlas를 제안한다. 대다수의 기존 모델들은 특정 언어군에 편향되어 있거나, 복잡한 문서 레이아웃을 처리하는 데 있어 성능이 저하되는 Generalization 문제를 겪고 있다.

#Review #Document Understanding #Multilingual #Vision-Language Models #OCR #Multimodal Learning

2026년 5월 19일

[논문리뷰] Unlocking Dense Metric Depth Estimation in VLMs

본 논문은 기존 VLMs가 2D 과업에는 뛰어나지만 3D 이해 능력은 여전히 제한적이라는 핵심 문제에서 출발합니다 . 기존 연구들은 외부의 3D 전문 모델로부터 지식을 증류하거나, 텍스트 기반으로만 학습하여 정밀한 기하학적 정보가 부족하고 오류가 누적되는 한계를 보입니다.

#Review #Vision-Language Models #Dense Metric Depth Estimation #3D Geometry #Unified Supervision #Spatial Reasoning

2026년 5월 17일

[논문리뷰] MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

본 논문은 현대의 멀티모달 에이전트가 장기 기억(Long-term memory)을 관리하는 과정에서 시각적 정보가 왜곡되거나 손실되는 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Agent Memory #Long-term Memory #Visual Evidence Granularity #Memory Reasoning Depth #Vision-Language Models #Benchmarking

2026년 5월 14일

[논문리뷰] CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

본 논문은 현대의 Vision-Language Models(VLMs)가 시각적 입력으로부터 위상적 위계 구조를 정확하게 파악하는 데 한계를 보인다는 문제를 해결하고자 합니다.

#Review #Topological Reasoning #Vision-Language Models #Jordan Curves #Reinforcement Learning #Structured Prediction #Containment Tree

2026년 5월 14일

[논문리뷰] RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data

본 논문은 로봇 조작(Robotic Manipulation) 분야에서 작업에 최적화된 물리적 상호작용 데이터가 부족하다는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language Models #Video Generation Models #Self-Evolving Framework #Complementary Learning Systems #Data Efficiency #Reinforcement Learning

2026년 5월 13일

[논문리뷰] Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

본 논문은 최신 Vision-Language Models(VLMs)가 Adversarial 공격에 극도로 취약하며, 기존의 탐지 방식들은 실질적인 배포 환경에서의 강력한 공격이나 데이터 분포 변화에 대응하지 못한다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Adversarial Attack Detection #Sparse Autoencoders #Plug-and-Play #Robustness #Out-of-Domain Generalization

2026년 5월 10일

[논문리뷰] 4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding

본 논문은 기존 VLM이 동적 공간 추론에서 겪는 불투명성과 성능 한계를 해결하기 위해 4DThinker를 제안합니다. 기존 연구들은 추론 과정을 텍스트로만 기술하거나 외부 기하학적 모듈을 의존하여 추론 복잡도를 증가시키고 모델 자체의 내재적 능력을 제한하는 한계를 보입니다 .

#Review #Vision-Language Models #Dynamic Spatial Reasoning #Latent Mental Imagery #Dynamic-Imagery Fine-Tuning (DIFT)#4D Reinforcement Learning (4DRL)#Chain-of-Thought (CoT)

2026년 5월 10일

[논문리뷰] Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

본 논문은 기존의 text-based iRAG 시스템이 겪는 Coarse-grained attribution과 Visual semantic loss 문제를 해결하기 위해 고안되었습니다.

#Review #Iterative Retrieval-Augmented Generation #Visual Attribution #Vision-Language Models #Pixel-level Grounding #Multi-hop Reasoning

2026년 5월 5일

[논문리뷰] Online Self-Calibration Against Hallucination in Vision-Language Models

본 논문은 기존의 offline 선호도 정렬 방식이 LVLM의 hallucination 문제를 해결하는 데 오히려 역효과를 낼 수 있다는 Supervision-Perception Mismatch 문제를 제기한다.

#Review #Vision-Language Models #Hallucination #Monte Carlo Tree Search #Preference Alignment #DPO #Generative-Discriminative Gap #Online Learning

2026년 5월 3일

[논문리뷰] AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

본 논문은 현재 GUI 에이전트 평가 방식이 단순한 시각적 요소 매칭에 치중되어 있어, 실제 디지털 환경에서의 복잡한 상태 변화와 GUI 동역학을 이해하는 능력을 측정하지 못한다는 문제를 해결하고자 한다.

#Review #GUI Agents #Multi-Modal Benchmarking #Functional Understanding #Interaction Outcome Prediction #Vision-Language Models #Hierarchical Decomposition

2026년 4월 28일

[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .

#Review #Time Series Reasoning #Large Language Models #Vision-Language Models #Chain-of-Thought #Curriculum Learning #Data Taxonomy

2026년 4월 23일

[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.

#Review #Vision-Language Models #Visual Reasoning #Overthinking #Reinforcement Learning #Chain-of-Thought #Efficiency

2026년 4월 19일

[논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

본 논문은 Reinforcement Learning을 통해 최적의 도구 사용 전략을 자동 학습하는 RadAgent 프레임워크를 제안합니다. RadAgent는 초기 보고서 초안을 작성한 후, 임상 진단 체크리스트를 기반으로 단계별 에이전트 루프를 거치며 필요한 도구를 호출하고 결과를 업데이트합니다 .

#Review #RadAgent #Reinforcement Learning #Vision-Language Models #Chest CT #Medical Report Generation #Tool-using AI Agent #Faithfulness #Robustness

2026년 4월 16일

[논문리뷰] SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

본 논문은 3D 공간 추론 학습에서 데이터 주석(annotation) 비용과 모델 합의(consensus) 기반 학습의 한계 문제를 해결하고자 합니다.

#Review #Spatial Reasoning #Self-Evolution #Vision-Language Models #Deterministic Geometric Environment #Reinforcement Learning

2026년 4월 15일

[논문리뷰] Structural Graph Probing of Vision-Language Models

본 논문은 VLM의 복잡한 내부 연산 구조를 파악하기 위해, 기존의 국소적(local) 어트리뷰션 방식을 넘어선 population-level의 해석 가능성(interpretability) 프레임워크를 제안합니다.

#Review #Vision-Language Models #Neural Topology #Mechanistic Interpretability #Neuron Correlation #Graph Neural Networks #Causal Intervention

2026년 4월 9일

[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.

#Review #Vision-Language Models #Embodied AI #Long-Horizon Planning #3D Open-World Benchmark #Automated Evaluation

2026년 4월 9일

[논문리뷰] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

저자들은 Instruction-conditioned visual-language action policy인 MolmoWeb을 제안하며, 이를 학습시키기 위한 MolmoWebMix 데이터셋을 구축하였습니다. MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, 웹 스크린샷과 작업 지시어를 입력받아 즉각적인 브라우저 액션을 출력합니다 .

#Review #Web Agents #Multimodal #Vision-Language Models #Open Data #Browser-use #GUI Perception #Instruction-conditioned Policies

2026년 4월 9일

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] Less Detail, Better Answers: Degradation-Driven Prompting for VQA

본 논문은 최신 Vision-Language Models (VLMs) 가 고해상도 이미지에서 오히려 불필요한 시각적 노이즈로 인해 환각(Hallucination)이나 추론 오류를 범하는 현상을 해결하고자 합니다.

#Review #Vision-Language Models #Visual Question Answering #Degradation-Driven Prompting #Agentic Perception #Structural Bottleneck

2026년 4월 6일

[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다.

#Review #Vision-Language Models #Multi-Encoder Fusion #Entropy-Guided Selection #Orthogonal Layer #RoPE #Visual Grounding #Multimodal Understanding

2026년 4월 5일

[논문리뷰] VOID: Video Object and Interaction Deletion

본 연구는 CogVideoX 확산 모델을 기반으로, 물리적 인과 관계를 반영하는 카운터팩추얼 생성 모델을 구축하였습니다. 먼저 Kubric과 HUMOTO를 통해 객체 제거 전후의 물리적 역학 변화를 학습하고, VLM을 활용해 영상 내 영향받는 영역을 실시간으로 추론하여 Quadmask를 생성함으로써 모델의 생성 범위를 명확히 제한합니다.

#Review #Video Object Removal #Counterfactual Reasoning #Video Diffusion Models #Interaction-Aware Masking #Vision-Language Models

2026년 4월 2일

[논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

본 연구는 embodied 환경에서 시점 변화, 거리, 폐색(Occlusion)으로 인해 발생하는 객체 묘사의 의미론적 불일치(Semantic Inconsistency) 문제를 해결하는 것을 목적으로 합니다.

#Review #Embodied AI #Vision-Language Models #Episodic Memory #Semantic Consistency #Object Captioning #Data Association

2026년 4월 2일

[논문리뷰] LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

본 논문은 사전 학습된 LM 을 VLM 으로 적응(adaptation)시키는 과정에서 발생하는 고유한 언어 능력의 퇴보 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Knowledge Distillation #Linguistic Ability #KV-cache Sharing #Multimodal Adaptation #Catastrophic Forgetting

2026년 4월 2일

[논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

본 논문은 3D-VG 작업을 'Think(추론)', 'Act(도구 호출)', 'Build(재구성)' 단계로 세분화한 TAB 프레임워크를 제안합니다 . TAB은 고정된 파이프라인 대신, 전문적인 3D-VG Skill blueprint에 따라 VLM 에이전트가 능동적으로 visual tool을 호출하여 타겟을 추적하고 마스크를 생성합니다.

#Review #3D Visual Grounding #Vision-Language Models #Agentic Framework #RGB-D #Zero-Shot #Geometric Reconstruction

2026년 4월 1일

[논문리뷰] Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

본 논문은 지능형 조립 어시스턴트가 2D 다이어그램과 실제 카메라 영상을 정렬하는 과정에서 겪는 Depiction Gap 문제를 해결하기 위해 수행되었습니다.

#Review #Vision-Language Models #Cross-depiction Alignment #Assembly Guidance #Diagram-to-video Matching #Mechanistic Analysis

2026년 4월 1일

[논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Vision-language models (VLMs)를 3D Question Answering (3D QA)에 적용할 때, 다중 뷰 이미지에서 발생하는 극심한 시각적 중복(token redundancy) 문제가 주요 장애물로 작용합니다.

#Review #3D Question Answering #Vision-Language Models #Visual Token Pruning #Semantic-Awareness #Geometry-Guided

2026년 3월 31일

[논문리뷰] MolmoPoint: Better Pointing for VLMs with Grounding Tokens

기존의 VLM들은 포인팅을 위해 텍스트 기반의 좌표를 생성하는 방식을 주로 사용해 왔습니다. 그러나 이러한 방식은 복잡한 좌표 시스템을 학습해야 하며, 토큰 사용량이 많아 효율성이 떨어지는 한계가 있습니다 .

#Review #Vision-Language Models #Grounding Tokens #Pointing #GUI Grounding #Video Grounding #Sample Efficiency

2026년 3월 30일

[논문리뷰] Make Geometry Matter for Spatial Reasoning

최근 VLMs는 광범위한 훈련을 통해 일반적인 영상 이해 능력은 향상되었으나, 3D 공간상의 물체 관계나 움직임을 파악하는 Spatial Reasoning 에는 여전히 한계를 보입니다.

#Review #Vision-Language Models #Spatial Reasoning #Geometry Tokens #Token Masking #Gated Routing

2026년 3월 30일

[논문리뷰] ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Latent World Models, 특히 V-JEPA2와 같은 JEPA-style 모델은 비디오 Observation으로부터 미래 World States를 예측하는 데 유망한 능력을 보여왔다.

#Review #Latent World Models #Vision-Language Models #Predictive Representation Learning #Dual-Temporal Sampling #Semantic Guidance #Trajectory Prediction #Egocentric Video #JEPA

2026년 3월 24일

[논문리뷰] PEARL: Personalized Streaming Video Understanding Model

인간의 새로운 개념 인지 과정은 본질적으로 스트리밍(streaming) 프로세스입니다. 우리는 끊임없이 새로운 객체나 신원을 인식하고 시간이 지남에 따라 기억을 업데이트합니다. 그러나 현재의 멀티모달(multimodal) 개인화 방법론들은 주로 정적인 이미지나 오프라인(offline) 비디오에 국한되어 있습니다.

#Review #Personalized Streaming Video Understanding #PSVU #PEARL-Bench #Dual-grained Memory System #Concept-aware Retrieval Algorithm #Vision-Language Models #Real-time AI Assistants

2026년 3월 24일

[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.

#Review #Document OCR #Diffusion Models #Inverse Rendering #Parallel Decoding #Block-Attention #Curriculum Learning #Vision-Language Models

2026년 3월 24일

[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

CLIP과 같은 Vision-Language Models (VLMs)는 multimodal AI의 핵심 구성 요소이지만, 대규모의 uncurated training data로 인해 심각한 social 및 spurious bias가 내재되어 있다.

#Review #Vision-Language Models #CLIP #Debiasing #Sparse Autoencoder #Post-Hoc #Zero-Shot #Feature Disentanglement #Bias Mitigation

2026년 3월 23일

[논문리뷰] WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

최근 2D Foundation Models는 Text-to-Image Diffusion을 통해 탁월한 High-fidelity 이미지 생성 능력과 깊은 Semantic Understanding을 보여주었습니다.

#Review #3D World Generation #Foundation Models #Multi-Agent System #Vision-Language Models #3D Consistency #Gaussian Splatting

2026년 3월 22일

[논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Vision-language Models (VLMs)는 fine-grained하고 multi-step의 복잡한 시각-언어 추론 Task에서 여전히 어려움을 겪고 있다.

#Review #Vision-Language Models #Multi-Hop Reasoning #Data Synthesis #Reinforcement Learning with Verifiable Rewards #Chain-of-Thought #Generalizable Reasoning #Perception-level Hops #Instance-chain Hops

2026년 3월 22일

[논문리뷰] Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Multimodal Large Language Models (MLLMs)는 Vision과 Language를 연결하는 데 상당한 발전을 이루었지만, 공간 이해와 시점 인지(viewpoint-aware) 추론 능력은 여전히 부족합니다.

#Review #Vision-Language Models #3D Reasoning #Language-based Localization #Spatial Understanding #Situation Modeling #Global Layout Reconstruction #Monocular Video

2026년 3월 19일

[논문리뷰] Multimodal OCR: Parse Anything from Documents

Large language model과 Multimodal model 시대에 문서 파싱은 Pretraining 및 Retrieval을 위한 핵심 Data engine이 되었습니다.

#Review #Multimodal OCR #MOCR #Document Parsing #Structured Graphics #Image-to-SVG #Vision-Language Models #OCR Arena

2026년 3월 15일

[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.

#Review #Zero-Shot Manipulation #Video Generation Models #Vision-Language Models #Compositional Constraints #Robotics #Trajectory Optimization #Real-Robot Control

2026년 3월 11일

[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Vision-Language Models #Comparative Reasoning #Subtle Differences #Benchmark #Multi-modal AI #Image Comparison #VQA #Fine-grained Analysis

2026년 3월 10일

[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.

#Review #Spatial Intelligence #Vision-Language Models #Sports Analytics #3D Reconstruction #Dataset #Benchmark #Racket Sports #Human-Centric AI

2026년 3월 10일

[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Evolution #Reinforcement Learning #Zero-Data #Multi-Agent Systems #Code Generation #Synthetic Data

2026년 3월 10일

[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language Models #Motion Planning #High-Level Reasoning #Decoupled Architecture #Supervised Fine-tuning #NuScenes Benchmark

2026년 3월 9일

[논문리뷰] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 의 프롬프트 튜닝 과정에서 발생하는 시각 인코더의 전경 어텐션 시프트(foreground attention shift) 문제를 해결하여 예측 실패를 줄이고자 합니다.

#Review #Vision-Language Models #Prompt Tuning #Foreground Attention #Adaptive Learning #Generalization #Base-to-New Trade-off #Attention Guidance

2026년 3월 9일

[논문리뷰] Large Multimodal Models as General In-Context Classifiers

본 논문은 대규모 멀티모달 모델(LMMs)이 이미지 분류 작업에서 대조 학습 기반 시각-언어 모델(VLMs)보다 성능이 떨어진다는 기존 인식을 재고하고, 인컨텍스트 학습(ICL)이 LMMs의 분류 능력을 얼마나 향상시킬 수 있는지 탐구합니다.

#Review #Large Multimodal Models #In-Context Learning #Image Classification #Open-World Classification #Zero-Shot Learning #Vision-Language Models #CLIP

2026년 3월 5일

[논문리뷰] Phi-4-reasoning-vision-15B Technical Report

본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Efficient AI #Reasoning Models #Vision-Language Models #Data Curation #Mid-Fusion #High-Resolution Vision #Small Language Models

2026년 3월 4일

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.

#Review #Unified Multimodal Models #Multimodal Understanding #Generation-to-Understanding #Benchmark #Vision-Language Models #Generate-then-Answer #Model Evaluation

2026년 3월 3일

[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining

본 논문은 기존 언어 모델링의 한계를 넘어, 비전 신호를 퍼스트 클래스 시민 으로 통합한 통합 멀티모달 사전 훈련(unified multimodal pretraining) 의 설계 공간을 탐색하고 경험적 명확성을 제공하는 것을 목표로 합니다.

#Review #Multimodal Pretraining #Vision-Language Models #Mixture-of-Experts (MoE)#Representation Autoencoders (RAE)#World Modeling #Scaling Laws #Diffusion Models #Unified Architectures

2026년 3월 3일

[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

이 논문은 편집 용이성, 플랫폼 호환성, 해상도 독립성이 부족한 기존 래스터 비디오 애니메이션 생성 방식의 한계를 극복하고자 합니다.

#Review #Vector Animation Generation #Lottie #Multimodal Instructions #Tokenizer #Vision-Language Models #Generative AI #Dataset

2026년 3월 2일

[논문리뷰] Half-Truths Break Similarity-Based Retrieval

본 논문은 CLIP-스타일 이중 인코더 가 '하프 트루스(half-truths)'에 취약하여, 이미지에 대해 정확하지만 짧은 설명보다 그럴듯하지만 오류가 추가된 긴 설명(half-truth) 에 더 높은 유사도를 부여하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #CLIP #Compositional Reasoning #Image-Text Retrieval #Fine-tuning #Hard Negatives #Unit-level Supervision #Half-Truths

2026년 3월 2일

[논문리뷰] Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models

본 논문은 현대 비전 임베딩 모델이 훈련 중 접하지 못한 개념 조합에 대해 합성적으로 일반화하기 위해 어떤 본질적인 표현 특성을 가져야 하는지 규명하는 것을 목표로 합니다.

#Review #Compositional Generalization #Vision-Language Models #Linear Representations #Orthogonal Representations #Neural Networks #Embedding Geometry #CLIP

2026년 3월 1일

[논문리뷰] From Perception to Action: An Interactive Benchmark for Vision Reasoning

기존 VLM 평가가 구조 불가지론적이고 단일 턴 질의응답(VQA)에 치중하여 동적 환경에서 기하학, 접촉, 지지 관계가 행동 가능성을 어떻게 제약하는지에 대한 에이전트의 추론 능력을 평가하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #Physical Reasoning #Interactive AI #3D Benchmark #Mechanical Puzzles #Spatial Packing #Embodied AI

2026년 2월 24일

[논문리뷰] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

본 논문은 로봇 공학 분야의 주요 병목 현상인 보상 모델링 문제를 해결하기 위해, 사전 훈련된 Vision-Language Models (VLMs) 의 내부 토큰 확률 을 활용하여 제로-샷(zero-shot) 진척도(progress) 추정 을 가능하게 하는 것을 목표로 합니다.

#Review #Robotics #Reward Modeling #Vision-Language Models #Zero-Shot Learning #Token Probabilities #Progress Estimation #Behavior Cloning #Manipulation

2026년 2월 23일

[논문리뷰] Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

본 논문은 기존의 멀티모달 모델들이 데이터 학습량 이 많고 배포에 필요한 리소스 가 커서 엣지 디바이스에 적용하기 어렵다는 문제점을 해결하고자 합니다. 통합된 멀티모달 아키텍처 를 통해 시각적 이해와 생성을 동시에 수행하면서, 모바일 기기에서 실시간 추론 이 가능하도록 효율적인 모델 을 구축하는 것을 목표로 합니다.

#Review #Multimodal AI #Vision-Language Models #Diffusion Models #Mobile Devices #Edge Computing #Model Efficiency #Unified Architecture #Real-time Inference

2026년 2월 23일

[논문리뷰] Selective Training for Large Vision Language Models via Visual Information Gain

대규모 시각-언어 모델(LVLMs)이 시각적 증거 없이 텍스트 편향에 의존하여 응답하는 언어 편향(language bias) 및 시각적 무지(visual ignorance) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Models #Visual Grounding #Language Bias Mitigation #Selective Training #Perplexity Metric #Data Efficiency #Multimodal AI

2026년 2월 22일

[논문리뷰] Visual Persuasion: What Influences Decisions of Vision-Language Models?

본 연구는 Vision-Language Model (VLM) 이 시각적 요인에 의해 의사결정에 어떻게 영향을 받는지 체계적으로 이해하는 것을 목표로 합니다.

#Review #Vision-Language Models #Visual Persuasion #Prompt Optimization #Image Generation #AI Agent Behavior #Interpretability #Behavioral Evaluation

2026년 2월 17일

[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.

#Review #Multimodal Agents #Image Retrieval #Context-Aware #Visual Histories #Benchmarking #Vision-Language Models #Agentic AI

2026년 2월 16일

[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.

#Review #Reinforcement Learning #Visual Reasoning #Vision-Language Models #Causal Probing #Model Merging #Parameter Analysis #Transformer Layers #Functional Localization

2026년 2월 15일

[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.

#Review #Geolocation #Reinforcement Learning #Vision-Language Models #Chain-of-Thought #Geospatial AI #Dataset #Reward Function

2026년 2월 15일

[논문리뷰] ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

본 연구는 대규모 Visual Instruction Tuning (VIT) 데이터셋의 높은 중복성으로 인한 비효율적인 훈련 비용 문제를 해결하고자 합니다.

#Review #Multimodal Data Selection #Visual Instruction Tuning #Training-Free #Scalability #Subspace Learning #Vision-Language Models #Attention Mechanism

2026년 2월 12일

[논문리뷰] Adapting Vision-Language Models for E-commerce Understanding at Scale

본 논문은 일반적인 Vision-Language Models (VLMs) 이 속성 중심, 멀티-이미지, 노이즈가 많은 e-commerce 데이터에 적용될 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #E-commerce #Vision-Language Models #Multimodal Understanding #Instruction Tuning #Attribute Extraction #Fine-tuning #Benchmarking #LLMs

2026년 2월 12일

[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

본 논문은 기존 텍스트 기반 모델의 한계를 극복하고, 시각적 정보와 과학적 추론을 통합하여 물리 올림피아드 수준의 복잡한 문제 를 해결할 수 있는 개방형 Vision-Language Model (VLM) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Curriculum Learning #Physics Olympiads #Scientific Reasoning #Agentic AI #Multimodal AI #Physics

2026년 2월 10일

[논문리뷰] VLS: Steering Pretrained Robot Policies via Vision-Language Models

본 논문은 사전 학습된 로봇 정책이 새로운 객체, 장면, 또는 명령 변경과 같은 분포 외(Out-of-Distribution, OOD) 시나리오 에서 실패하는 문제를 해결하고자 합니다.

#Review #Robot Learning #Vision-Language Models #Policy Steering #Inference-Time Adaptation #Out-of-Distribution Generalization #Diffusion Models #Generative Policies

2026년 2월 4일

[논문리뷰] EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

본 논문은 인간형 로봇의 실제 환경 배포 시 발생하는 고유한 불안정성, 부분적 정보 기반의 지각/이동/조작 통합의 어려움, 그리고 동적 환경에서의 견고한 하위 태스크 전환 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Robots #Vision-Language Models #Task Planning #Egocentric Control #Mobile Manipulation #Active Perception #Human-Robot Interaction #Real-World Deployment

2026년 2월 4일

[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Post-Training #Optimal Transport #Reward Modeling #Annotation-free #Vision-Language Models #Diffusion Models

2026년 2월 2일

[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.

#Review #Multimodal AI #Agentic Intelligence #Vision-Language Models #Parallel Agent Orchestration #Reinforcement Learning #Joint Optimization #Visual Reasoning #Software Engineering

2026년 2월 2일

[논문리뷰] VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

본 논문은 대규모 언어 모델(LLM)의 long-context reasoning 에서 발생하는 심각한 효율성 병목 현상을 해결하고자 합니다.

#Review #Vision-Text Compression #Long-Context Reasoning #LLM Efficiency #Vision-Language Models #Iterative Reasoning #Mathematical Problem Solving #Inference Speedup

2026년 1월 29일

[논문리뷰] OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

본 논문은 기존의 파편화된 OCR 접근법의 한계를 극복하고, 텍스트 중심(Text-centric) 및 비전 중심(Vision-centric) OCR 기능을 통합하는 최초의 엔드-투-엔드(end-to-end) 통합 OCR 방법론 인 OCRVerse를 제안합니다.

#Review #Holistic OCR #Vision-Language Models #Multi-domain Training #Text-centric OCR #Vision-centric OCR #SFT-RL #Code Generation #Document Understanding

2026년 1월 29일

[논문리뷰] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

대규모 언어 모델(LLMs)이 모든 토큰에 균일하게 연산을 할당하여 비효율적인 연산 자원 사용을 초래하는 문제를 해결하는 것이 목표입니다.

#Review #MoE #LLMs #Adaptive Compression #Token Merging #Compute Allocation #Efficiency #Vision-Language Models #Continual Training

2026년 1월 29일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Video Understanding #Grounding #Open Weights #Open Data #Multimodal AI #Object Tracking #Dense Captioning

2026년 1월 15일

[논문리뷰] Action100M: A Large-scale Video Action Dataset

본 연구는 기존 영상 액션 데이터셋의 규모 및 도메인 다양성 한계를 극복하고, 물리적 세계를 이해하는 AI 모델의 발전을 위한 대규모 오픈-어휘 영상 액션 데이터셋 인 ACTION100M 을 구축하는 것을 목표로 합니다.

#Review #Large-scale Dataset #Video Action Recognition #Open-Vocabulary #Temporal Segmentation #Vision-Language Models #Zero-shot Learning #Data Curation #Self-Refine

2026년 1월 15일

[논문리뷰] OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

기존 3D 장면 이해 방법론들이 훈련된 임베딩과 대규모 수동 주석, 긴 훈련 시간에 의존하는 한계를 극복하고자 합니다. OpenVoxel은 훈련 없이 희소 복셀을 그룹화하고 캡셔닝하여 오픈-vocabulary 3D 장면 이해 태스크를 수행하며, 특히 복잡한 자연어 질의에 효과적으로 대응하는 것을 목표로 합니다.

#Review #3D Scene Understanding #Open-Vocabulary Segmentation #Referring Expression Segmentation #Training-Free #Voxel Grouping #Vision-Language Models #Multi-modal Large Language Models #Sparse Voxel Rasterization

2026년 1월 14일

[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands

기존 GUI 에이전트들이 주로 이산적인 클릭 예측에 의존하여 연속적이고 자유로운 형태의 드래그(예: 그림 그리기, 캡차 풀이)와 같이 즉각적인 시각적 인지와 조정이 필요한 복잡한 GUI 상호작용을 수행하기 어렵다는 문제를 해결합니다.

#Review #GUI Automation #Flow-based Generative Models #Continuous Control #Vision-Language Models #Human-Computer Interaction #ScreenDrag Benchmark #Dexterous Manipulation

2026년 1월 13일

[논문리뷰] What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

본 논문은 현재 Vision-Language Models (VLMs) 벤치마크가 대부분 명확하고 구조화된 질문에 초점을 맞추고 있어 실제 사용자 질의의 비공식적이고 불완전한 특성을 제대로 반영하지 못하는 문제를 제기합니다.

#Review #Vision-Language Models #Under-specified Queries #Multimodal Benchmark #HAERAE-Vision #Query Explicitation #Retrieval Augmentation #Cultural Knowledge #Korean QA

2026년 1월 12일

[논문리뷰] Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

본 논문은 Vision-Language Model (VLM)의 autoregressive 생성 과정에서 모든 토큰이 모델 불안정성에 동일하게 기여한다는 기존 가정에 도전합니다.

#Review #Vision-Language Models #Adversarial Attacks #Entropy-Guided Attacks #Token Vulnerability #Harmful Content #Cross-Model Transferability #Autoregressive Generation

2026년 1월 8일

[논문리뷰] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

본 논문은 기존 VLM 기반 에이전트의 텍스트 중심 추론 및 고립된 도구 호출 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Reinforcement Learning #Vision-Language Models #Tool Use #Agentic Reasoning #Image Search #HR-MMSearch #BN-GSPO

2026년 1월 4일

[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Vision-Language Models #Vision-Language-Action Models #Robotics #Multimodal AI #Action Planning #Long-Horizon Planning #Bidirectional Attention

2025년 12월 29일

[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning

현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.

#Review #Video Generation #Social Reasoning #Benchmark #Evaluation #Agent-based Pipeline #Vision-Language Models #Social Cognition

2025년 12월 28일

[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

본 논문은 Vision-Language Models (VLMs)이 동적 공간 추론(DSR)에 취약하다는 문제점을 해결하고자 합니다. 특히, 3D 공간에서 시간의 흐름에 따른 객체 기하학 및 관계의 변화를 이해하는 능력을 향상시키기 위해 확장 가능한 4D 인식 훈련 리소스의 부족을 해소하는 것을 목표로 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models #4D Understanding #Automated Data Generation #Geometry Selection Module #Video Analysis #Multimodal AI

2025년 12월 24일

[논문리뷰] QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs) 이 물리적 특성을 정량적으로 추론하는 능력에 대한 불확실성을 해결하고자 합니다.

#Review #Vision-Language Models #Physical Reasoning #Quantitative Benchmark #Kinematics #Mean Relative Accuracy #Video-Text #Embodied AI

2025년 12월 23일

[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Vision-Language Models #Diffusion Models #Region-aligned Guidance #Reinforcement Learning #Instruction-Visual Complexity #Attention Mechanism

2025년 12월 18일

[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

본 연구는 기존 멀티모달 모델이 2D 이미지에 의존하여 3D 공간 이해 능력이 부족하다는 한계를 해결하는 것을 목표로 합니다.

#Review #3D Grounding #Spatial Reasoning #Vision-Language Models #Depth Estimation #3D Object Detection #Chain-of-Thought #Data Generation #Multimodal AI

2025년 12월 18일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[논문리뷰] From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

본 논문은 눈에 보이지 않는 미세한 엔티티(원자, 분자)의 공간적 관계를 인식하고 추론하는 능력인 MiSI (Microscopic Spatial Intelligence) 개념을 도입하고, Vision-Language Models (VLMs) 의 해당 도메인 잠재력을 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Microscopic Spatial Intelligence #Molecular Structures #Benchmarking #PDBbind Dataset #Spatial Reasoning #Drug Discovery

2025년 12월 11일

[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.

#Review #Autonomous Driving #End-to-End Learning #Vision-Language Models #World Model #Chain-of-Thought #Video Generation #Trajectory Planning #Multimodal Learning

2025년 12월 10일

[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

Vision-Language Model (VLM)의 견고성과 성능 간의 상충 관계를 해결하고, 특히 함수어(function words) 가 교차-모달 적대적 공격에 대한 VLM의 취약성을 유발한다는 가설을 검증하고자 합니다.

#Review #Vision-Language Models #Adversarial Robustness #Function Words #Cross-Attention #Adversarial Attacks #Differential Attention #Vision-Language Alignment

2025년 12월 10일

[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.

#Review #Vision-Language Models #Linear Attention #Sliding Window Attention #Gated DeltaNet #Long-Context Understanding #Efficiency #Hybrid Architecture #Multimodal Learning

2025년 12월 10일

[논문리뷰] BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain

본 논문은 인간 뇌에서 시각적 개념 표현을 대규모로 발견하고 해석하는 자동화된 프레임워크인 BrainExplore 를 제안합니다. 기존 fMRI 연구의 소규모, 수동 분석 및 특정 영역 의존성의 한계를 극복하고, 방대한 시각적 개념 공간에서 정교하고 해석 가능한 뇌 활동 패턴 을 자동으로 식별하는 것을 목표로 합니다.

#Review #fMRI #Brain Mapping #Visual Representation #Interpretability #Sparse Autoencoders #Vision-Language Models #Unsupervised Learning #Neuroscience

2025년 12월 10일

[논문리뷰] Relational Visual Similarity

본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Relational Similarity #Visual Similarity #Vision-Language Models #Anonymous Captioning #Image Retrieval #Analogical Reasoning #Dataset Curation

2025년 12월 8일

[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Evolving Learning #Data-Scarce Domains #Context-First Learning #Reward Hacking Mitigation #Multimodal Reasoning #Curriculum Learning

2025년 12월 8일

[논문리뷰] Self-Improving VLM Judges Without Human Annotations

본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Improvement #Judge Models #Synthetic Data Generation #Iterative Refinement #Reward Modeling #Human-free Alignment

2025년 12월 7일

[논문리뷰] ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

본 논문은 복잡한 추론 중심 비디오 객체 분할 (Reasoning VOS) 태스크에서 기존 Vision-Language Models (VLMs) 의 불투명한 단일 스텝 잠재 예측 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Video Object Segmentation #Reinforcement Learning #Vision-Language Models #Reasoning Chain #Explainable AI #Multi-step Reasoning

2025년 12월 7일

[논문리뷰] ProPhy: Progressive Physical Alignment for Dynamic World Simulation

기존 비디오 생성 모델들이 대규모 또는 복잡한 다이내믹스에서 물리적으로 일관된 결과를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Physics-aware #World Simulation #Progressive Alignment #Mixture-of-Experts #Vision-Language Models #Token-level Routing

2025년 12월 7일

[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.

#Review #Image-Text Alignment #Multimodal Benchmarking #Hallucination Detection #Vision-Language Models #Synthetic Data Generation #Fine-Grained Analysis #Captioning

2025년 12월 3일

[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Table Recognition #Self-supervised Learning #Vision-Language Models #Reinforcement Learning #Question Answering #Data Augmentation #GRPO

2025년 12월 2일

[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Agentic Reasoning #Tool Use #Reinforcement Learning #Faithfulness Evaluation #Policy Optimization #Visual Search #Code Generation

2025년 12월 2일

[논문리뷰] Structured Extraction from Business Process Diagrams Using Vision-Language Models

이 논문은 비즈니스 프로세스 모델 및 표기법(BPMN) 다이어그램 이미지에서 원시 XML 파일이나 텍스트 주석 없이 직접 구조화된 JSON 표현 을 추출하는 것을 목표로 합니다. 이는 기존 방법론이 XML 의존성으로 인해 발생하는 하위 시스템 통합 및 분석의 제약을 극복하기 위함입니다.

#Review #Vision-Language Models #BPMN Extraction #Structured Information Extraction #OCR Enrichment #Prompt Engineering #Diagram Understanding #Business Process Management

2025년 12월 1일

[논문리뷰] Seeing the Wind from a Falling Leaf

본 연구는 영상 데이터로부터 나뭇잎이 떨어지는 바람과 같이 눈에 보이지 않는 물리적 힘(invisible forces)을 추정하는 것을 목표로 합니다. 인간이 시각적 단서만으로 보이지 않는 물리적 효과를 인지하는 능력을 모방하여, 비전과 물리학 간의 간극을 줄이고 픽셀 뒤의 물리적 과정을 이해하는 데 기여하고자 합니다.

#Review #Inverse Graphics #Differentiable Physics #Force Estimation #Video Generation #Material Point Method #3D Gaussians #Spatio-temporal Modeling #Vision-Language Models

2025년 12월 1일

[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images

기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.

#Review #Remote Sensing #Vision-Language Models #Iterative Reasoning #Evidence-Seeking #Socratic Method #Reinforcement Learning #Multi-Agent System #VQA #Grounding

2025년 12월 1일

[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #Vision-Language Models #Culture Mixing #VQA #Synthetic Data Generation #Multicultural Understanding #Model Robustness #Fine-tuning #Cultural Bias

2025년 11월 30일

[논문리뷰] Test-time scaling of diffusions with flow maps

본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Flow Maps #Test-time Adaptation #Reward Guidance #Generative Models #SMC #Vision-Language Models

2025년 11월 30일

[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image Editing

이 논문은 확산 기반 이미지 편집 모델이 복잡한 사용자 지침(구성 관계, 맥락적 단서, 참조 표현 등)을 정확하게 해석하지 못하여 발생하는 의미론적 드리프트 및 편집 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Multimodal AI #Iterative Reasoning #Agentic AI #Reinforcement Learning #Diffusion Models #Vision-Language Models #Instruction Following

2025년 11월 27일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다.

#Review #Self-Evolving Agent #Vision-Language Models #Tool-Integrated Reasoning #Reinforcement Learning #Self-Correction #Multimodal AI #Generative AI

2025년 11월 25일

[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models

본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Physics Reasoning #Motion Tracking #Spatial-Temporal Grounding #Video QA #AIGC Analysis #Reinforcement Learning

2025년 11월 24일

[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models #Latent Memory #Cognitive Memory #Visual Grounding #Short-term Memory #Long-term Memory #Reinforcement Learning

2025년 11월 23일

[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from Images

본 논문은 인간 주석이나 작업별 휴리스틱 없이, 대규모 비정형 이미지 데이터로부터 Vision-Language Models (VLMs) 의 추론 능력을 자율적으로 개선하는 것을 목표로 합니다. 기존 강화 학습(RL) 방식이 지닌 비용과 확장성 한계를 극복하고자 합니다.

#Review #Self-Evolving #Vision-Language Models #Reinforcement Learning #Self-Play #Unlabeled Data #Multimodal Reasoning #Group Relative Policy Optimization #Hallucination Mitigation

2025년 11월 19일

[논문리뷰] Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

본 연구는 흉부 X-ray(CXR)에서 병변 분할 모델의 제한적인 타겟 레이블 수와 전문가 수준의 상세 텍스트 입력 의존성을 해결하고자 합니다.

#Review #Medical Imaging #Chest X-ray #Lesion Segmentation #Vision-Language Models #Instruction Following #Data Generation #MIMIC-CXR

2025년 11월 19일

[논문리뷰] Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Vision-Language Models(VLM)이 테스트 시점의 도메인 변화(OOD)에 취약하여 성능이 저하되는 문제를 해결하고, 기존 Test-Time Adaptation(TTA) 방법론의 높은 계산 비용과 메모리 사용량, 그리고 frozen encoder 수정의 필요성 같은 제약을 극복하는 효율적이고 비침습적인 프레임워크를 개발하는 것이 목표입니다.

#Review #Vision-Language Models #Test-Time Adaptation #Zero-Shot Generalization #Spectral Decomposition #Latent Space Steering #SVD #Out-of-Distribution

2025년 11월 17일

[논문리뷰] WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

본 논문은 기존 Vision-Language Models (VLMs) 기반의 UI-to-Code 접근 방식이 정적인 HTML/CSS 코드만 생성하고 GUI 상호작용을 지원하지 못하는 한계를 극복하고자 합니다.

#Review #UI-to-Code #Vision-Language Models #Agentic Framework #Interactive UI #Web Automation #Code Generation #UI Verification #Supervised Fine-Tuning

2025년 11월 12일

[논문리뷰] Grounding Computer Use Agents on Human Demonstrations

이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.

#Review #Computer Use Agents #UI Grounding #Desktop Applications #Human Demonstrations #Large-Scale Dataset #Vision-Language Models #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 11일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] Visual Spatial Tuning

본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Spatial Reasoning #Spatial Perception #Dataset Creation #Reinforcement Learning #Visuospatial AI #Robotics

2025년 11월 9일

[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #3D Scene Synthesis #Fine-Grained Evaluation #Tool-Augmented LLMs #Embodied AI #Vision-Language Models #Benchmark #Multi-Hop Grounding

2025년 11월 9일

[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Vision-Language Models #Multimodal Benchmark #Rebus Puzzles #In-Context Learning #Reasoning #ControlNet #Prompt Engineering

2025년 11월 9일

[논문리뷰] NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

본 논문은 Vision-Language Models (VLMs)의 실제 환경 내 로봇 내비게이션 능력 을 평가하기 위한 새로운 벤치마크 NaviTrace를 제안합니다.

#Review #Vision-Language Models #Embodied Navigation #VQA Benchmark #Robotic Navigation #Semantic-aware Score #Dynamic Time Warping #Real-world Scenarios

2025년 11월 9일

[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Benchmarking #Visual Measurement Reading #Synthetic Data Generation #Fine-grained Perception #Spatial Grounding #Reinforcement Learning

2025년 11월 9일

[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.

#Review #Self-supervised learning #Reinforcement Learning #Spatial Understanding #Vision-Language Models #Pretext Tasks #RGB-D Images #Spatial Reasoning

2025년 11월 9일

[논문리뷰] Revisiting Multimodal Positional Encoding in Vision-Language Models

본 논문은 Vision-Language Models (VLMs)에서 사용되는 멀티모달 위치 인코딩, 특히 Rotary Positional Embedding (RoPE) 에 대한 체계적인 연구 부족 문제를 해결하고자 합니다.

#Review #Multimodal Positional Encoding #Vision-Language Models #Rotary Positional Embedding (RoPE)#Transformer #Multimodal Understanding #Visual Grounding #Frequency Allocation #Position Design

2025년 11월 9일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

본 논문은 기존 Vision-Language Models (VLMs) 기반의 드론 내비게이션 접근 방식이 액션 예측을 텍스트 생성으로 간주하여 발생하는 한계를 해결하고자 합니다.

#Review #Vision-Language Models #UAV Navigation #Zero-shot #Spatial Grounding #Waypoint Prompting #Autonomous Navigation #Adaptive Control

2025년 9월 29일

[논문리뷰] RefAM: Attention Magnets for Zero-Shot Referral Segmentation

컴퓨터 비전 태스크에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Zero-Shot Segmentation #Referring Segmentation #Diffusion Transformers (DiTs)#Attention Mechanisms #Attention Sinks #Stop Words #Vision-Language Models #Training-Free Methods

2025년 9월 29일

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

기존 멀티모달 검색 방법론들이 단일 벡터 임베딩의 표현력 한계에 부딪히거나, 다수의 토큰으로 인한 다중 벡터 방식의 계산 비용 문제로 확장성에 제약을 받는 문제를 해결하고자 합니다. 유연한 테스트 시간 임베딩 세분화 제어를 통해 확장 가능하며 높은 정확도를 유지하는 멀티모달 검색 패러다임을 개발하는 것이 주 목표입니다.

#Review #Multimodal Retrieval #Late Interaction #Meta Tokens #Matryoshka Representation Learning #Test-Time Scaling #Vision-Language Models #Dense Retrieval #Efficiency

2025년 9월 23일

[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.

#Review #Embodied AI #Human-Robot Interaction #Multi-turn Dialogue #Instruction Following #Vision-Language Models #Diffusion Models #Ambiguity Resolution #Low-level Actions

2025년 9월 22일

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.

#Review #Computer Use Agents #Vision-Language Models #Cross-Platform Data #GUI Automation #Data Scaling #Open-Source #Task Completion #GUI Grounding

2025년 9월 19일

[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence

본 연구는 의사 전문성에 크게 의존하고 주관적이며 비효율적인 기존 초음파 진단의 한계를 극복하고, 일반적인 VLM(Vision-Language Model) 의 초음파 의료 도메인 지식 부족 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Ultrasound Imaging #Medical Diagnosis #Mixture-of-Experts (MoE)#Instruction Tuning #Multimodal AI #Report Generation #VQA

2025년 9월 19일

[논문리뷰] 3D Aware Region Prompted Vision Language Model

본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.

#Review #3D Vision #Vision-Language Models #Spatial Reasoning #Region Prompting #Multi-view Learning #Depth Estimation #Unified Representation #Generative AI

2025년 9월 17일

[논문리뷰] Lost in Embeddings: Information Loss in Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 에서 시각적 정보를 언어 모델 임베딩 공간으로 투영하는 커넥터(connector) 모듈로 인해 발생하는 잠재적인 정보 손실 을 정량화하고 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Information Loss #Embeddings #Connectors #k-NN Overlap Ratio #Embedding Reconstruction #Multimodal AI

2025년 9월 16일

[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Visual Reasoning #Reflection #Reinforcement Learning #Visual Attention #Slow Thinking #Multimodal Agents

2025년 9월 16일

[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models

본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Representation Alignment #Foundation Models #Regularization #Fine-grained Visual Understanding #Spatial Reasoning #Object Counting #Vision-Language Models

2025년 9월 10일

[논문리뷰] MobiAgent: A Systematic Framework for Customizable Mobile Agents

본 논문은 GUI 기반 모바일 에이전트가 직면하는 낮은 태스크 완료율, 느린 응답 시간, 예상치 못한 상황 처리 능력 부족 등 실세계 태스크 실행의 정확성과 효율성 문제 를 해결하고자 합니다. 특히, 기존 모델들의 한계를 극복하고 맞춤형 모바일 에이전트 를 위한 체계적인 프레임워크를 제공하는 것을 목표로 합니다.

#Review #Mobile Agents #GUI Agents #Vision-Language Models #Agent Acceleration #Benchmarking #Reinforcement Learning #Data Collection

2025년 9월 3일

[논문리뷰] Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

본 논문은 기존의 단일 모달(symbolic regression 또는 LLM) 접근법이 물리학자들이 현상학적 시각적 표현을 활용하는 점을 간과하여 동적 현상 내재의 시공간 패턴을 해석하는 능력이 약하다는 문제를 해결하고자 합니다.

#Review #Physics Formula Discovery #Multimodal AI #Vision-Language Models #Symbolic Regression #Causal Chain of Thought #Reinforcement Learning #Agentic AI

2025년 9월 1일

[논문리뷰] CLIPSym: Delving into Symmetry Detection with CLIP

본 논문은 기존 대규모 비전-언어 모델(Vision-Language Models, VLMs)인 CLIP 을 활용하여 이미지 내의 반사 및 회전 대칭을 더욱 정확하고 견고하게 탐지하는 것을 목표로 합니다.

#Review #Symmetry Detection #Vision-Language Models #CLIP #Equivariant Networks #Prompt Engineering #Geometric Deep Learning

2025년 9월 1일

[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

논문은 마스크 기반 이미지 편집(Image Fill, Extend, Object Removal, Text Rendering)의 다양한 하위 태스크에서 기존 모델들의 제한적인 범용성과 태스크별 지도 학습 미세 조정(SFT) 의 비효율성을 해결하고자 합니다.

#Review #Image Generation #Mask-Guided Editing #Reinforcement Learning #Human Preference Learning #Vision-Language Models #Multi-Task Learning #Flow Matching

2025년 8월 29일

[논문리뷰] Self-Rewarding Vision-Language Model via Reasoning Decomposition

Vision-Language Model (VLM)이 겪는 시각적 환각 및 언어적 지름길 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Rewarding #Reasoning Decomposition #Visual Perception #Language Reasoning #Hallucinations #Language Shortcuts

2025년 8월 28일

[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment

본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Language Models #Multilingual Benchmarking #Persian Language #Educational Assessment #Vision-Language Models #Cultural Nuance #Reasoning Tasks

2025년 8월 26일

[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Inference Efficiency #Vision-Language Models #Open-Source #Versatility #Reasoning

2025년 8월 26일

[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual Reasoning

본 설문조사는 복잡한 시각적 장면을 분해하고, 중간 개념을 이해하며, 다단계 논리적 추론을 수행하는 인간과 같은 능력을 기계에 부여하는 것을 목표로 하는 Compositional Visual Reasoning (CVR) 분야의 진화를 체계적으로 분석합니다.

#Review #Compositional Visual Reasoning #Multimodal AI #Vision-Language Models #Large Language Models #Chain-of-Thought #Tool Learning #Agentic AI #Survey

2025년 8월 26일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision-Language Models #Alignment Pre-training #Text-to-Vision Mapping #Continuous Representations #Computational Efficiency #LLM

2025년 8월 19일

[논문리뷰] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors

이 논문은 로봇의 능숙한 파지(dexterous grasping) 시 기존 연구들이 간과했던 어포던스 인식(affordance-aware) 위치 설정 및 인간과 유사한 자세 의 중요성에 주목합니다.

#Review #Robotic Dexterous Grasping #Affordance-Aware #Human-like Priors #Reinforcement Learning #Vision-Language Models #Two-Stage Training #Manipulation

2025년 8월 13일

[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.

#Review #GUI Grounding #Test-Time Scaling #Reinforcement Learning #Region Consistency #Spatial Voting #Self-Supervised Learning #Vision-Language Models

2025년 8월 13일

[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents

본 논문은 상업용 컴퓨터 사용 에이전트(CUA) 시스템의 핵심 세부 정보가 비공개인 현 상황에서, 연구 커뮤니티가 CUA의 역량, 한계, 위험을 연구할 수 있는 포괄적인 오픈 소스 프레임워크 를 제공하는 것을 목표로 합니다. 특히, 대규모 CUA 데이터 및 기초 모델 을 확장하기 위한 개방형 기반을 구축하고자 합니다.

#Review #Computer-Use Agents #Vision-Language Models #Chain-of-Thought Reasoning #Large-scale Dataset #Open-source Framework #Desktop Automation #Agent Evaluation

2025년 8월 13일

[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space

기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.

#Review #Robotics #Action Reasoning #Vision-Language Models #Spatial Planning #Depth Perception #Trajectory Generation #Explainable AI

2025년 8월 12일

[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.

#Review #Computer Use Agent #Self-Evolving #Reinforcement Learning #Curriculum Learning #Vision-Language Models #Experiential Learning #Specialist-to-Generalist

2025년 8월 7일

[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language Models #Synthetic Worlds #Transfer Learning #PPO #Actor-Critic #Embodied AI

2025년 8월 7일

[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

기존 비디오 가상 피팅(VVT) 기술의 한계, 즉 데이터 부족, 디테일 보존 실패, 비제약적 환경에서의 시간적 일관성 부족 문제를 해결하는 것이 목표입니다. 특히, 실제 시나리오에서 다양한 의류와 환경에 대한 적응성을 높여 고품질의 사실적인 비디오 가상 피팅 을 구현하고자 합니다.

#Review #Video Virtual Try-On #Diffusion Transformers #Stage-Wise Framework #Vision-Language Models #LoRA #Temporal Consistency #Garment Preservation

2025년 8월 7일

[논문리뷰] Multimodal Referring Segmentation: A Survey

이 논문은 이미지, 비디오, 3D 장면과 같은 다양한 시각적 맥락에서 텍스트 또는 오디오 참조 표현을 기반으로 특정 객체를 분할하는 다중모드 참조 분할(Multimodal Referring Segmentation) 분야에 대한 포괄적인 최신 조사를 제공하는 것을 목표로 합니다.

#Review #Multimodal Learning #Referring Segmentation #Vision-Language Models #Image Segmentation #Video Segmentation #3D Vision #Survey

2025년 8월 4일

[논문리뷰] AgroBench: Vision-Language Model Benchmark in Agriculture

본 논문은 농업 분야에서 Vision-Language Model (VLM) 의 광범위한 지식과 실제 적용 가능성을 평가하기 위한 포괄적인 벤치마크 데이터셋인 AgroBench 를 구축하는 것을 목표로 합니다. 기존 농업 VLM 벤치마크의 부족한 범주 다양성과 합성 데이터 의존성이라는 한계를 극복하고자 합니다.

#Review #Vision-Language Models #Agriculture #Benchmarking #Disease Identification #Pest Management #Crop Management #Agronomy

2025년 8월 2일

[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning

본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.

#Review #Urban Sensing #Socio-Economic Status #Vision-Language Models #Reinforcement Learning #Generalization #Interpretability #Multi-modal Data

2025년 10월 31일

[논문리뷰] VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

기존 VLM 기반 로봇 시스템의 고정적이고 비동시적인 상호작용 패러다임이 유연한 인간-로봇 협력을 저해하는 문제를 해결하는 것을 목표로 합니다. 로봇이 인간처럼 동시에 보고, 듣고, 말하고, 행동하며 실시간 사용자 개입에 동적으로 반응할 수 있는 프레임워크를 구축하고자 합니다.

#Review #Embodied AI #Human-Robot Interaction #Vision-Language Models #Concurrency #Interruption #Robotics Control #Dual-Model Architecture #Special Tokens

2025년 10월 28일

[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.

#Review #Semantic 3D Reconstruction #Instance Grounding #Geometry Transformer #Multi-view Consistency #Scene Understanding #InsScene-15K #Vision-Language Models #Cross-Modal Fusion

2025년 10월 28일

[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

본 논문은 기존의 모듈형 Vision-Language Models (VLMs)이 가진 강한 시각적 인코딩 편향과 복잡한 인프라 문제를 해결하고, 초기 퓨전 방식의 단일(monolithic) VLM 아키텍처인 '네이티브 VLM'의 근본적인 제약을 극복하는 것을 목표로 합니다.

#Review #Vision-Language Models #Native VLMs #Early Fusion #Multimodal Learning #Transformer Architecture #Rotary Position Embeddings #Pixel-Word Alignment #End-to-End Training

2025년 10월 17일

[논문리뷰] Generative Universal Verifier as Multimodal Meta-Reasoner

본 논문은 차세대 멀티모달 추론 및 통합 모델을 위한 생성형 범용 검증기(Generative Universal Verifier, GUV) 개념과 플러그인을 소개합니다.

#Review #Multimodal AI #Visual Verification #Generative Models #Self-Refinement #Vision-Language Models #Test-Time Scaling #Reasoning

2025년 10월 16일

[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners

본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Data Curation #Chain-of-Thought #VL Reasoning #Dataset Scaling #Supervised Finetuning #HONEYBEE #Test-Time Scaling

2025년 10월 15일

[논문리뷰] StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

로봇 시스템에서 효율적인 세계 모델링과 의사 결정을 위해 표현적이고 압축적인 상태 표현 을 개발하는 것이 핵심 목표입니다. 기존 방법론들이 과도한 중복성이나 핵심 정보 부족으로 겪던 한계를 극복하고, 로봇의 시각적 정보를 효과적으로 요약하여 행동에 직접 연결될 수 있는 표현을 학습하고자 합니다.

#Review #Robot Learning #State Representation #Motion Representation #Diffusion Models #Unsupervised Learning #World Modeling #Vision-Language Models #Latent Action

2025년 10월 9일

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.

#Review #GUI Grounding #Vision-Language Models #Positional Embedding #UI Automation #Coordinate Prediction #Resolution Generalization #Transformer Architecture

2025년 10월 6일

[논문리뷰] From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model

이 논문은 비전-언어 확산 모델에서 발생하는 train-inference 불일치 로 인한 오류 연쇄(error cascade) 문제를 해결하는 것을 목표로 합니다. 특히 병렬 디코딩 시 초기 토큰 오류가 전체 생성 컨텍스트를 오염시켜 구문 오류 및 의미론적 환각 을 유발하는 문제를 극복하고자 합니다.

#Review #Discrete Diffusion Models #Vision-Language Models #Error Cascades #Self-Correction #Refinement Framework #Parallel Generation #Image Captioning #Hallucination Mitigation

2025년 10월 27일

[논문리뷰] Unified Reinforcement and Imitation Learning for Vision-Language Models

본 논문은 대규모 Vision-Language Models (VLMs) 의 비효율성을 해결하기 위해, 리소스가 제한된 환경에서도 강력하고 경량화된 VLM을 구축하는 효율적인 훈련 알고리즘 Unified Reinforcement and Imitation Learning (RIL) 을 제안합니다.

#Review #Vision-Language Models #Reinforcement Learning #Imitation Learning #Model Distillation #Lightweight VLMs #LLM-as-a-Judge #Multimodal Learning

2025년 10월 23일

[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #CLIP #LLM-based Embedder #Knowledge Distillation #Contrastive Learning #Curriculum Learning #Multimodal Alignment #Progressive Alignment

2025년 10월 22일

[논문리뷰] Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

본 연구는 기존 RAG 시스템이 단일 모드 텍스트나 제한된 다중 모드 설정에만 초점을 맞춰, 실제 환경의 혼합 모드(mixed-modal) 질의 및 문서 처리에 한계가 있다는 문제를 해결하고자 합니다.

#Review #Universal RAG #Multimodal Retrieval #Mixed-Modal Data Generation #Vision-Language Models #Contrastive Learning #Matryoshka Representation Learning

2025년 10월 21일

[논문리뷰] Glyph: Scaling Context Windows via Visual-Text Compression

논문은 대규모 언어 모델(LLM)의 컨텍스트 창을 수백만 토큰 수준으로 확장할 때 발생하는 막대한 계산 및 메모리 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Context Modeling #Visual Compression #Vision-Language Models #Token Efficiency #Genetic Algorithms #Multimodal AI #LLM Scaling

2025년 10월 21일

[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.

#Review #Video Editing #Instruction-Based Editing #Synthetic Data Generation #Dataset #Curriculum Learning #Diffusion Models #Vision-Language Models

2025년 10월 20일

[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Object Grounding #Fine-grained Perception #Hybrid Region Encoder #Plug-and-play #Two-stage Training #Visual Reasoning

2025년 10월 2일

[논문리뷰] GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

본 논문은 Vision-Language Model (VLM) 기반 GUI 에이전트가 고해상도 스크린샷 시퀀스 및 장기 작업을 처리할 때 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Agents #KV Cache Compression #Spatio-Temporal Awareness #Vision-Language Models #Efficiency #Attention Sparsity #QR Decomposition

2025년 10월 2일

[논문리뷰] Code2Video: A Code-centric Paradigm for Educational Video Generation

최근 픽셀 기반 생성 모델들은 전문적인 교육용 비디오 제작에 어려움을 겪습니다. 특히 학문적 지식, 정밀한 시각 구조, 일관된 전환이 필요한데, Code2Video는 이러한 한계를 극복하기 위해 실행 가능한 Python 코드 를 활용한 코드 중심의 에이전트 프레임워크를 제안합니다.

#Review #Educational Video Generation #Code-centric AI #Multi-agent Framework #Manim #Vision-Language Models #Knowledge Transfer #Code Generation #MMMC Benchmark

2025년 10월 2일

[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generation #Evaluation Framework #Cinematic Control #Taxonomy #Human Annotation #Vision-Language Models #Text-to-Video

2025년 10월 1일

[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models

이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.

#Review #Vision-Language Models #Multimodal Reasoning #Reasoning #Visual Forgetting #Perceptual Grounding #Reinforcement Learning #Policy Optimization #Visual Anchors

2025년 10월 1일