[논문리뷰] SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes본 논문은 VLM이 단순한 공간 관찰을 넘어 실제 3D 환경에서 행동하고 그 결과를 관리할 수 있는지 평가하기 위해 SpatialAct를 제안한다. 기존의 공간 추론 벤치마크들은 대부분 정적인 이미지나 비디오를 대상으로 모델의 이해도만을 측정하며, 모델의 출력이 환경을 변화시키는 상호작용은 고려하지 않았다 .#Review#VLM Agents#3D Spatial Reasoning#Action-Conditioned#Interactive Refinement#Benchmark#Simulator-Grounded2026년 6월 3일댓글 수 로딩 중
[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video Generation본 논문은 기존 비디오 생성 모델이 3D 물리적 액션(예: 힘, 로봇 조작)의 결과를 시뮬레이션하지 못하는 한계를 해결하고자 합니다. 단일 이미지에서 3D 물리적 액션에 조건화된 비디오를 실시간으로 생성 하여, 사용자가 물리적 상호작용의 결과를 즉시 확인할 수 있도록 하는 것을 목표로 합니다.#Review#Video Generation#Physics Simulation#Real-Time#Action-Conditioned#3D Scene Reconstruction#Diffusion Models#Optical Flow2026년 3월 5일댓글 수 로딩 중