[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models본 논문은 Spatial Intelligence를 구축하는 데 있어 VLM과 VGM 중 어느 사전 학습(Pre-training) 패러다임이 더 우수한 표현 체계(Representation substrate)를 제공하는지 분석한다 .#Review#Spatial Intelligence#Vision-Language Models#Video Generation Models#Frozen-Feature Probing#Representation Learning#Semantic Tagging#3D Geometry Prediction2026년 6월 1일댓글 수 로딩 중
[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .#Review#Video Generation Models#Video Reasoning#Vision-Language Models#Test-Time Optimization#LoRA#Differentiable Rewards2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data본 논문은 로봇 조작(Robotic Manipulation) 분야에서 작업에 최적화된 물리적 상호작용 데이터가 부족하다는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language Models#Video Generation Models#Self-Evolving Framework#Complementary Learning Systems#Data Efficiency#Reinforcement Learning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding최근 Multimodal Large Language Models (MLLMs)는 인상적인 Semantic Capability를 보여주지만, Fine-grained geometric reasoning 및 Physical dynamics와 관련된 'Spatial blindness' 문제를 겪고 있습니다.#Review#Video Generation Models#3D Priors#Scene Understanding#Spatial Reasoning#Multimodal Large Language Models (MLLMs)#Latent World Simulator#Adaptive Gated Fusion#Generative AI2026년 3월 19일댓글 수 로딩 중
[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.#Review#Zero-Shot Manipulation#Video Generation Models#Vision-Language Models#Compositional Constraints#Robotics#Trajectory Optimization#Real-Robot Control2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation본 논문은 실세계 환경에서 Beyond-the-View Navigation (BVN) 이 직면한 과제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Navigation#Beyond-the-View Navigation#Video Generation Models#Sparse Video Generation#Diffusion Models#Embodied AI#Real-world Navigation#Long-horizon Planning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark본 논문은 최신 비디오 생성 모델 이 단순한 시각적 품질을 넘어 실제 세계의 물리 법칙과 연속성을 이해하며 추론하는 Chain-of-Frames (CoF) 추론 능력 을 체계적으로 평가할 수 있는 벤치마크의 부재를 해결하는 것을 목표로 합니다.#Review#Generative Visual Reasoning#Chain-of-Frames (CoF)#Video Generation Models#World Simulators#AI Benchmarking#Cognitive Reasoning#VLM Evaluation2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark본 연구는 최신 비디오 생성 모델, 특히 Veo-3 가 복잡한 시각적 추론 시나리오에서 제로샷 추론자(zero-shot reasoner) 로서 얼마나 준비되었는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Video Generation Models#Zero-Shot Reasoning#Visual Reasoning#MME-COF Benchmark#Chain-of-Frame Reasoning#Temporal Coherence#Spatial Reasoning2025년 10월 31일댓글 수 로딩 중