#Cross-Reconstruction

1개의 포스트

[논문리뷰] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

본 논문은 시각적 앵커링을 통해 이질적인 동작들을 공통 잠재 공간으로 정렬하는 UniT를 제안합니다. UniT는 시각적, 동작적, 융합적 세 가지 브랜치로 구성된 트리 브랜치(tri-branch) 아키텍처를 가지며, 모든 브랜치는 Residual Quantization(RQ-VAE)을 통해 공유 코드북(shared codebook)으로 양자화됩니다 .

#Review #Humanoid Robotics #Vision-Language-Action Models #Cross-Embodiment Transfer #Latent Action Tokenizer #World Modeling #Visual Anchoring #Cross-Reconstruction

2026년 4월 23일