[논문리뷰] UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling본 논문은 시각적 앵커링을 통해 이질적인 동작들을 공통 잠재 공간으로 정렬하는 UniT를 제안합니다. UniT는 시각적, 동작적, 융합적 세 가지 브랜치로 구성된 트리 브랜치(tri-branch) 아키텍처를 가지며, 모든 브랜치는 Residual Quantization(RQ-VAE)을 통해 공유 코드북(shared codebook)으로 양자화됩니다 .#Review#Humanoid Robotics#Vision-Language-Action Models#Cross-Embodiment Transfer#Latent Action Tokenizer#World Modeling#Visual Anchoring#Cross-Reconstruction2026년 4월 23일댓글 수 로딩 중