#Latent World Model

2개의 포스트

[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.

#Review #Vision-Language-Action (VLA)#Latent World Model #JEPA #Pretraining #Robot Learning #Generalization #Robustness #Human Videos

2026년 2월 10일

[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Self-Supervised Learning #Masked Video Modeling #Video-Text Supervision-Free #Encoder-Predictor-Decoder #Diffusion Decoder #Semantic Alignment #Latent World Model

2025년 12월 1일