[논문리뷰] OmniWeaving: Towards Unified Video Generation with Free-form Composition and ReasoningJiangfeng Xiong이 arXiv에 게시한 'OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Unified Video Generation#Multimodal Composition#Reasoning-Augmented#IntelligentVBench#MLLM#MMDiT#DeepStacking#Free-form Inputs2026년 3월 25일댓글 수 로딩 중
[논문리뷰] EVA: Efficient Reinforcement Learning for End-to-End Video AgentXuanyu Zheng이 arXiv에 게시한 'EVA: Efficient Reinforcement Learning for End-to-End Video Agent' 논문에 대한 자세한 리뷰입니다.#Review#Video Agent#Reinforcement Learning#MLLM#Planning-before-Perception#Tool Use#KTO#GRPO2026년 3월 25일댓글 수 로딩 중
[논문리뷰] MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional ReasoningarXiv에 게시된 'MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#MLLM#Deep Compositional Reasoning#Programmatically Verified Benchmark#Hard Negatives#Control Flow#VPIR#Path F12026년 3월 15일댓글 수 로딩 중
[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and GenerationarXiv에 게시된 'Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Reward Modeling#Image Editing#Image Generation#MLLM#Data Curation#Fidelity#Instruction Following2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time TrainingarXiv에 게시된 'Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Test-Time Training#MLLM#Streaming Video#Hybrid Architecture#Spatiotemporal Convolution2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference GuidancearXiv에 게시된 'Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Instruction Guidance#Reference Guidance#Diffusion Models#MLLM#Dataset Generation#RefVIE#Curriculum Learning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression TasksarXiv에 게시된 'Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Referring Expression Comprehension#MLLM#Visual Reasoning#Benchmark Dataset#Hard Distractors#Grounding Shortcuts#Chain-of-Thought#Negation2026년 3월 1일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical ReportarXiv에 게시된 'UI-Venus-1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding TasksarXiv에 게시된 'VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and RectificationarXiv에 게시된 'Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification' 논문에 대한 자세한 리뷰입니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid CurriculumarXiv에 게시된 'Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum' 논문에 대한 자세한 리뷰입니다.#Review#Video Retrieval#Multimodal Embedding#Data Synthesis#Curriculum Learning#Zero-shot Generalization#Benchmark Design#MLLM#Video-Text Retrieval2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary GranularityKehan Li이 arXiv에 게시한 'PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity' 논문에 대한 자세한 리뷰입니다.#Review#MLLM#Region-level Understanding#Object-centric Reasoning#Spatio-temporal Referring#Video Understanding#Scale-Adaptive Tokenizer#Efficiency#Instruction Tuning2025년 10월 28일댓글 수 로딩 중
[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical EnvironmentsChaoyang Zhao이 arXiv에 게시한 'PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments' 논문에 대한 자세한 리뷰입니다.#Review#Active Visual Reasoning#MLLM#Physical Environments#Partially Observable#Markov Decision Process#Chain-of-Thought#Embodied AI#CLEVR-AVR2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit FeedbackarXiv에 게시된 'Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Diffusion Models#Reinforcement Learning#MLLM#Policy Optimization#Finetuning#Reward Modeling#Human Alignment2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic DataRitesh Sarkhel이 arXiv에 게시한 'Train a Unified Multimodal Data Quality Classifier with Synthetic Data' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Data Quality#MLLM#Synthetic Data#Data Filtering#Image-Text Captioning#Interleaved Document Analysis#Pre-training2025년 10월 20일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to kmKaituo Feng이 arXiv에 게시한 'SpaceVista: All-Scale Visual Spatial Reasoning from mm to km' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for VideosXintao Wang이 arXiv에 게시한 'UniVideo: Unified Understanding, Generation, and Editing for Videos' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal GuidancearXiv에 게시된 'IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Multimodal Alignment#MLLM#Image Re-generation#Preference Learning#Implicit Guidance#Text-to-Image2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token GenerationShiming Liu이 arXiv에 게시한 'Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation' 논문에 대한 자세한 리뷰입니다.#Review#MLLM#Interpretability#Attribution#Token Generation#Black-box Explanation#Hallucination Diagnosis#Multimodality#VQA2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person RetrievalKaicheng Yang이 arXiv에 게시한 'Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Text-based Person Retrieval#CLIP#MLLM#Data Curation#Dual-Masking#Gradient-Attention#WebPerson Dataset2025년 9월 12일댓글 수 로딩 중
[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFTShuheng Shen이 arXiv에 게시한 'UI-Venus Technical Report: Building High-performance UI Agents with RFT' 논문에 대한 자세한 리뷰입니다.#Review#UI Agent#MLLM#RFT#UI Grounding#UI Navigation#GRPO#Data Cleaning#Self-Evolving Trajectory2025년 8월 15일댓글 수 로딩 중
[논문리뷰] SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video GenerationLong Chen이 arXiv에 게시한 'SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Audio-driven Video Generation#Spatial Auditory Cues#Video Scene Layout#MLLM#Diffusion Models#Training-free2025년 8월 4일댓글 수 로딩 중