#Action-Conditioned

2개의 포스트

[논문리뷰] SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

본 논문은 VLM이 단순한 공간 관찰을 넘어 실제 3D 환경에서 행동하고 그 결과를 관리할 수 있는지 평가하기 위해 SpatialAct를 제안한다. 기존의 공간 추론 벤치마크들은 대부분 정적인 이미지나 비디오를 대상으로 모델의 이해도만을 측정하며, 모델의 출력이 환경을 변화시키는 상호작용은 고려하지 않았다 .

#Review #VLM Agents #3D Spatial Reasoning #Action-Conditioned #Interactive Refinement #Benchmark #Simulator-Grounded

2026년 6월 3일

[논문리뷰] RealWonder: Real-Time Physical Action-Conditioned Video Generation

본 논문은 기존 비디오 생성 모델이 3D 물리적 액션(예: 힘, 로봇 조작)의 결과를 시뮬레이션하지 못하는 한계를 해결하고자 합니다. 단일 이미지에서 3D 물리적 액션에 조건화된 비디오를 실시간으로 생성 하여, 사용자가 물리적 상호작용의 결과를 즉시 확인할 수 있도록 하는 것을 목표로 합니다.

#Review #Video Generation #Physics Simulation #Real-Time #Action-Conditioned #3D Scene Reconstruction #Diffusion Models #Optical Flow

2026년 3월 5일