[논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents본 논문은 현재의 GUI agent가 장기적(Long-Horizon) 태스크 수행 시 인터페이스 변화에 따른 태스크 상태를 유지하는 데 한계를 보인다는 점을 문제로 지적합니다.#Review#GUI Agents#Multimodal Memory#Long-Horizon#Memory Control#MLLM#Working Memory#Episodic Memory2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis본 논문은 기존의 text-driven 3D 생성 방식이 갖는 공간적 정보의 불명확성과, 기존 agentic 프레임워크가 holistic room generation 과정에서 직면하는 무한 루프 및 불안정성 문제를 해결하고자 합니다.#Review#Agentic AI#3D Room Synthesis#MLLM#Blender Code#Execution Harness#Cross-stage Memory#Top-down View2026년 5월 18일댓글 수 로딩 중
[논문리뷰] X2SAM: Any Segmentation in Images and Videos본 논문은 MLLM의 강력한 추론 능력과 foundation segmentation model의 정밀한 픽셀 단위 인식 능력을 통합하여 정적 이미지뿐만 아니라 동적 비디오까지 포괄하는 통합된 세분화 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Segmentation#Video-Understanding#Mask-Memory#Visual-Prompting#Spatio-Temporal-Consistency2026년 5월 5일댓글 수 로딩 중
[논문리뷰] OmniWeaving: Towards Unified Video Generation with Free-form Composition and ReasoningProprietary Systems인 Seedance-2.0 과 같은 모델들은 Omni-capable Video Generation 분야에서 놀라운 성공을 거두었지만, Open-source 대안들은 그에 비해 상당히 뒤쳐져 있습니다.#Review#Unified Video Generation#Multimodal Composition#Reasoning-Augmented#IntelligentVBench#MLLM#MMDiT#DeepStacking#Free-form Inputs2026년 3월 25일댓글 수 로딩 중
[논문리뷰] EVA: Efficient Reinforcement Learning for End-to-End Video Agent기존 멀티모달 대규모 언어 모델(MLLM) 기반 비디오 이해 시스템은 비디오를 수동적인 인식기로 처리하여, 전체 비디오나 균일하게 샘플링된 프레임을 어떠한 적응적 추론 없이 처리하는 한계가 있습니다.#Review#Video Agent#Reinforcement Learning#MLLM#Planning-before-Perception#Tool Use#KTO#GRPO2026년 3월 25일댓글 수 로딩 중
[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.#Review#MLLM#Benchmark#Proactiveness#Reinforcement Learning#Multimodal Reasoning#Human-AI Interaction2026년 3월 22일댓글 수 로딩 중
[논문리뷰] MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional ReasoningMultimodal Large Language Models ( MLLM )은 GUI 탐색과 같은 복잡한 시각적 워크플로우를 처리하는 데 점점 더 많이 사용되고 있지만, 이러한 Deep Compositional Reasoning 능력에 대한 평가는 여전히 부족합니다.#Review#MLLM#Deep Compositional Reasoning#Programmatically Verified Benchmark#Hard Negatives#Control Flow#VPIR#Path F12026년 3월 15일댓글 수 로딩 중
[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and GenerationDiffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Reward Modeling#Image Editing#Image Generation#MLLM#Data Curation#Fidelity#Instruction Following2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training인간은 시각적 관찰 스트림을 통해 실제 공간을 인지하고 이해하므로, 잠재적으로 무한한 비디오 스트림에서 Spatial Evidence 를 스트리밍 방식으로 유지하고 업데이트하는 능력은 Spatial Intelligence 에 필수적입니다.#Review#Spatial Intelligence#Test-Time Training#MLLM#Streaming Video#Hybrid Architecture#Spatiotemporal Convolution2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.#Review#Video Editing#Instruction Guidance#Reference Guidance#Diffusion Models#MLLM#Dataset Generation#RefVIE#Curriculum Learning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.#Review#Referring Expression Comprehension#MLLM#Visual Reasoning#Benchmark Dataset#Hard Distractors#Grounding Shortcuts#Chain-of-Thought#Negation2026년 3월 1일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical Report본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.#Review#Video Retrieval#Multimodal Embedding#Data Synthesis#Curriculum Learning#Zero-shot Generalization#Benchmark Design#MLLM#Video-Text Retrieval2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token GenerationMultimodal Large Language Models (MLLMs)의 자동 회귀 토큰 생성 과정에서 시각적 입력이 출력 토큰에 미치는 영향을 설명하고, 언어적 선험 지식과 지각적 증거의 상대적 영향력을 정량화하는 것을 목표로 합니다.#Review#MLLM#Interpretability#Attribution#Token Generation#Black-box Explanation#Hallucination Diagnosis#Multimodality#VQA2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.#Review#Text-based Person Retrieval#CLIP#MLLM#Data Curation#Dual-Masking#Gradient-Attention#WebPerson Dataset2025년 9월 12일댓글 수 로딩 중
[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFT본 논문은 스크린샷만을 입력으로 받는 고성능 UI 에이전트인 UI-Venus 를 구축하는 것을 목표로 합니다. 기존 지도 미세 조정(SFT) 방식의 한계인 일반화 능력 부족과 높은 데이터 수집 비용을 극복하고, 복잡한 UI 환경에서의 탐색 및 추론 능력을 향상시키는 데 중점을 둡니다.#Review#UI Agent#MLLM#RFT#UI Grounding#UI Navigation#GRPO#Data Cleaning#Self-Evolving Trajectory2025년 8월 15일댓글 수 로딩 중
[논문리뷰] SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation본 논문은 기존 오디오 기반 비디오 생성 모델들이 주로 시맨틱 정보에만 초점을 맞춰 공간적 일관성이 부족하다는 한계를 지적합니다.#Review#Audio-driven Video Generation#Spatial Auditory Cues#Video Scene Layout#MLLM#Diffusion Models#Training-free2025년 8월 4일댓글 수 로딩 중
[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.#Review#MLLM#Region-level Understanding#Object-centric Reasoning#Spatio-temporal Referring#Video Understanding#Scale-Adaptive Tokenizer#Efficiency#Instruction Tuning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.#Review#Active Visual Reasoning#MLLM#Physical Environments#Partially Observable#Markov Decision Process#Chain-of-Thought#Embodied AI#CLEVR-AVR2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Diffusion Models#Reinforcement Learning#MLLM#Policy Optimization#Finetuning#Reward Modeling#Human Alignment2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.#Review#Multimodal Data Quality#MLLM#Synthetic Data#Data Filtering#Image-Text Captioning#Interleaved Document Analysis#Pre-training2025년 10월 20일댓글 수 로딩 중
[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance확산 모델(Diffusion Models)에서 생성된 이미지와 입력 프롬프트 간의 정확한 멀티모달 정렬(multimodal alignment) 부족 문제를 해결합니다.#Review#Diffusion Models#Multimodal Alignment#MLLM#Image Re-generation#Preference Learning#Implicit Guidance#Text-to-Image2025년 10월 1일댓글 수 로딩 중