#Adaptive Temporal Ensemble

1개의 포스트

[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

본 논문은 기존 Vision-Language-Action (VLA) 모델의 한계인 희소한 행동 감독 신호, 과도한 시각 상태 예측 비용, 정보 병목 현상, 그리고 언어 감독 부족으로 인한 이해 및 추론 능력 저하를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA) Models #Visual Foresight #Diffusion Transformer (DiT)#Robotics #Multimodal Learning #Adaptive Temporal Ensemble #Latent Actions

2025년 11월 23일