[논문리뷰] Token Warping Helps MLLMs Look from Nearby Viewpoints본 논문은 토큰을 변환 단위로 사용하는 Token Warping 프레임워크를 제안하며, 특히 Backward Token Warping이 안정성과 의미론적 일관성 측면에서 가장 우수함을 입증한다. 와 는 MLLM 토큰이 위치 잡음에 강건하다는 점을 증명하며, 이를 바탕으로 시점 변환 시 토큰 기반의 역투영 기법을 적용한다.#Review#Multimodal Large Language Models#Token Warping#Viewpoint-Aware Reasoning#Spatial Reasoning#Mental Imagery2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Make Geometry Matter for Spatial ReasoningarXiv에 게시된 'Make Geometry Matter for Spatial Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Spatial Reasoning#Geometry Tokens#Token Masking#Gated Routing2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided ReasoningarXiv에 게시된 'Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Spatial Reasoning#Textual Representation#Allocentric Context#Egocentric Video#Prompting Methods#VSI-Bench#OST-Bench2026년 3월 25일댓글 수 로딩 중
[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene UnderstandingarXiv에 게시된 'Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation Models#3D Priors#Scene Understanding#Spatial Reasoning#Multimodal Large Language Models (MLLMs)#Latent World Simulator#Adaptive Gated Fusion#Generative AI2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial IntelligenceYuning Gong이 arXiv에 게시한 'Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#3D Spatial Intelligence#Video Stream Processing#Automated Data Curation#3D Gaussian Splatting (3DGS)#Vision-Language Models (VLMs)#Open-Vocabulary Segmentation#Spatial Reasoning#Multimodal Datasets2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point CloudsarXiv에 게시된 'Utonia: Toward One Encoder for All Point Clouds' 논문에 대한 자세한 리뷰입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical EnvironmentsarXiv에 게시된 'JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments' 논문에 대한 자세한 리뷰입니다.#Review#3D Audio-Visual Learning#Spatial Grounding#Spatial Reasoning#Large Language Models (LLMs)#Ambisonics#RGB-D#Simulated Environments#Neural Intensity Vector2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Learning Situated Awareness in the Real WorldRajiv Dhawan이 arXiv에 게시한 'Learning Situated Awareness in the Real World' 논문에 대한 자세한 리뷰입니다.#Review#Situated Awareness#Egocentric Vision#Spatial Reasoning#Multimodal Foundation Models#Video Understanding#Benchmark#Real-world Data2026년 2월 18일댓글 수 로딩 중
[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language ModelsarXiv에 게시된 'BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Bimanual Manipulation#MLLMs#Robotics Benchmark#Spatial Reasoning#Action Planning#End-Effector Control#Embodied AI#Multimodal LLMs2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image ModelsarXiv에 게시된 'Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Models#Spatial Intelligence#Benchmark#Evaluation#Prompt Engineering#Multimodal LLMs#Fine-tuning#Spatial Reasoning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] World Craft: Agentic Framework to Create Visualizable Worlds via TextarXiv에 게시된 'World Craft: Agentic Framework to Create Visualizable Worlds via Text' 논문에 대한 자세한 리뷰입니다.#Review#Generative Agents#AI Town#LLM#Environment Creation#Multi-agent System#Spatial Reasoning#Text-to-World#Reverse Synthesis2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Think3D: Thinking with Space for Spatial ReasoningYuhan Wu이 arXiv에 게시한 'Think3D: Thinking with Space for Spatial Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#3D Reconstruction#VLM Agents#Tool Calling#Reinforcement Learning#Novel View Synthesis#Iterative Exploration2026년 1월 20일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMsarXiv에 게시된 'SpatialTree: How Spatial Abilities Branch Out in MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language ModelsarXiv에 게시된 'N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#3D Grounding#Spatial Reasoning#Vision-Language Models#Depth Estimation#3D Object Detection#Chain-of-Thought#Data Generation#Multimodal AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial IntelligencePeizhou Cao이 arXiv에 게시한 'MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Video-Based Spatial Intelligence#MLLM Benchmark#Spatial Reasoning#Multi-Modal Learning#Perception#Planning#Prediction#Cross-Video Reasoning#Human-AI Gap2025년 12월 17일댓글 수 로딩 중
[논문리뷰] From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language ModelsarXiv에 게시된 'From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Microscopic Spatial Intelligence#Molecular Structures#Benchmarking#PDBbind Dataset#Spatial Reasoning#Drug Discovery2025년 12월 11일댓글 수 로딩 중
[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial IntelligenceJiawei Sheng이 arXiv에 게시한 'COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Spatial Reasoning#Perception Enhancement#Auxiliary Modalities#Adaptive Interleaved Reasoning#Reinforcement Learning#Chain-of-Thought2025년 12월 7일댓글 수 로딩 중
[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy OptimizationarXiv에 게시된 'SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Navigation#Large Vision-Language Models#Visual Prompt#Reinforcement Fine-Tuning#Policy Optimization#Embodied AI#Spatial Reasoning#Perception Errors2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RLarXiv에 게시된 'SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Vision Language Models#Reinforcement Learning#Tool Augmentation#Robotics#Multi-Tool Use#Embodied AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video GenerationYu Ning이 arXiv에 게시한 'Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Geometrically-Constrained Agent for Spatial ReasoningLehan He이 arXiv에 게시한 'Geometrically-Constrained Agent for Spatial Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Vision Language Models (VLMs)#Geometric Constraints#Agentic AI#Tool Integration#Semantic-to-Geometric Gap#Task Formalization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving TasksYiran Peng이 arXiv에 게시한 'Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Error-Driven Scene Editing for 3D Grounding in Large Language ModelsarXiv에 게시된 'Error-Driven Scene Editing for 3D Grounding in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#3D Grounding#3D-LLMs#Scene Editing#Counterfactual Augmentation#Error-Driven Learning#Spatial Reasoning#Visual Grounding2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning BoundariesZhengzhong Tu이 arXiv에 게시한 'Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Spatial Reasoning#Controllable Framework#RLVR#GRPO#Maze Navigation#Generalization Boundaries2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Visual Spatial TuningarXiv에 게시된 'Visual Spatial Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Spatial Reasoning#Spatial Perception#Dataset Creation#Reinforcement Learning#Visuospatial AI#Robotics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning ParadigmarXiv에 게시된 'Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal Reasoning#Temporal Understanding#Spatial Reasoning#Foundation Models#AI Benchmarking#In-Context Learning#Self-Consistency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SIMS-V: Simulated Instruction-Tuning for Spatial Video UnderstandingarXiv에 게시된 'SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Video Understanding#Simulated Data#Instruction Tuning#Multimodal LLMs#Sim-to-Real Transfer#AI2-THOR2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMsarXiv에 게시된 'RiddleBench: A New Generative Reasoning Benchmark for LLMs' 논문에 대한 자세한 리뷰입니다.#Review#LLM Reasoning#Generative AI#Benchmark#Logical Deduction#Spatial Reasoning#Constraint Satisfaction#Hallucination Cascade#Self-Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them DrawarXiv에 게시된 'LTD-Bench: Evaluating Large Language Models by Letting Them Draw' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language ModelsChangfeng Ma이 arXiv에 게시한 'Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Spatial Reasoning#Viewpoint Learning#Two-Stage Fine-tuning#3D Consistency#Viewpoint-100K#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement LearningarXiv에 게시된 'Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised learning#Reinforcement Learning#Spatial Understanding#Vision-Language Models#Pretext Tasks#RGB-D Images#Spatial Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF BenchmarkarXiv에 게시된 'Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation Models#Zero-Shot Reasoning#Visual Reasoning#MME-COF Benchmark#Chain-of-Frame Reasoning#Temporal Coherence#Spatial Reasoning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and BenchmarksarXiv에 게시된 'Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Spatial Reasoning#Survey#Benchmarks#3D Vision#Embodied AI#Vision-Language Navigation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Reasoning in Space via Grounding in the WorldLi Zhang이 arXiv에 게시한 'Reasoning in Space via Grounding in the World' 논문에 대한 자세한 리뷰입니다.#Review#3D Visual Grounding#Spatial Reasoning#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Hybrid Representation#Multi-modal LLMs#Point Clouds2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Detect Anything via Next Point PredictionarXiv에 게시된 'Detect Anything via Next Point Prediction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Object Detection#Coordinate Prediction#Reinforcement Learning#Supervised Fine-tuning#Visual Perception#Zero-shot Learning#Spatial Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and GenerationLinyi Jin이 arXiv에 게시한 'Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Camera-Centric#Image Understanding#Image Generation#Spatial Reasoning#Camera Parameters#Instruction Tuning#Multimodal Spatial Intelligence2025년 10월 13일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to kmKaituo Feng이 arXiv에 게시한 'SpaceVista: All-Scale Visual Spatial Reasoning from mm to km' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Visual Jigsaw Post-Training Improves MLLMsLewei Lu이 arXiv에 게시한 'Visual Jigsaw Post-Training Improves MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#MLLMs#Post-training#Self-supervised Learning#Visual Understanding#Jigsaw Puzzles#RLVR#Multimodal Perception#Spatial Reasoning2025년 9월 30일댓글 수 로딩 중
[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial ReasoningWeipeng Zhong이 arXiv에 게시한 'MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Generation#Robotic Manipulation#Large Language Models#Spatial Reasoning#Dataset#Direct Preference Optimization#Tabletop Scene2025년 9월 29일댓글 수 로딩 중
[논문리뷰] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI EraZihao Dongfang이 arXiv에 게시한 'PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era' 논문에 대한 자세한 리뷰입니다.#Review#Omnidirectional Vision#Embodied AI#Panoramic Perception#Multi-modal Learning#Dataset Development#Robot Navigation#Spatial Reasoning#System Architecture2025년 9월 18일댓글 수 로딩 중
[논문리뷰] 3D Aware Region Prompted Vision Language ModelXiaolong Li이 arXiv에 게시한 '3D Aware Region Prompted Vision Language Model' 논문에 대한 자세한 리뷰입니다.#Review#3D Vision#Vision-Language Models#Spatial Reasoning#Region Prompting#Multi-view Learning#Depth Estimation#Unified Representation#Generative AI2025년 9월 17일댓글 수 로딩 중
[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware ReasoningYuzheng Zhuang이 arXiv에 게시한 'OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Multimodal LLMs#3D Grounding#Task-Adaptive Reasoning#Embodiment-Aware Planning#Robotics#Spatial Reasoning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language ModelsHeeseong Shin이 arXiv에 게시한 'Visual Representation Alignment for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual InquiriesXia Su이 arXiv에 게시한 'Does the cafe entrance look accessible? Where is the door? Towards Geospatial AI Agents for Visual Inquiries' 논문에 대한 자세한 리뷰입니다.#Review#Geospatial AI#Multimodal AI Agents#Visual Question Answering#Accessibility#Street View Imagery#Spatial Reasoning#Human-Computer Interaction2025년 8월 22일댓글 수 로딩 중
[논문리뷰] RynnEC: Bringing MLLMs into Embodied Worldjiangpinliu이 arXiv에 게시한 'RynnEC: Bringing MLLMs into Embodied World' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal Large Language Models#Embodied AI#Embodied Cognition#Video Understanding#Instance Segmentation#Spatial Reasoning#Robotics2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor AgentsAnji Liu이 arXiv에 게시한 'Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Multi-Task Learning#Visuomotor Agents#Spatial Reasoning#Generalization#Minecraft#Cross-View Goal Specification#Automated Task Synthesis2025년 8월 2일댓글 수 로딩 중