#Robot Policy Learning

3개의 포스트

[논문리뷰] Geometric Action Model for Robot Policy Learning

본 논문은 기존의 Vision-Language-Action Models (VLAs)가 2D 기반의 시각적 지식에 의존하여 3D 물리적 조작 환경에서 깊이, 스케일, 폐색(occlusion)을 명시적으로 추론하지 못하는 한계를 해결하고자 합니다.

#Review #Robot Policy Learning #Geometric Foundation Model #Vision-Language-Action Model #World Model #Causal Future Prediction #3D Geometry

2026년 6월 15일

[논문리뷰] Action Images: End-to-End Policy Learning via Multiview Video Generation

본 논문은 7-DoF 로봇 제어 입력을 Action Images로 변환하여 시각적 표현으로 통합하는 방식을 취합니다 . 제안 모델은 Wan 2.2 비디오 백본을 기반으로 하며, RGB 비디오와 Action Images를 결합하여 비디오 공간에서 물리적 동역학을 모델링합니다 .

#Review #World Action Model #Robot Policy Learning #Multiview Video Generation #Pixel-grounded Representation #Zero-shot Policy

2026년 4월 7일

[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Generation #Agentic Framework #Simulation-Ready Environments #Robot Policy Learning #Large Language Models (LLM)#Physics Simulation #Data Augmentation

2026년 2월 10일