[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.#Review#Vision-Language-Action (VLA)#Latent World Model#JEPA#Pretraining#Robot Learning#Generalization#Robustness#Human Videos2026년 2월 10일댓글 수 로딩 중
[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.#Review#Video Foundation Models#Self-Supervised Learning#Masked Video Modeling#Video-Text Supervision-Free#Encoder-Predictor-Decoder#Diffusion Decoder#Semantic Alignment#Latent World Model2025년 12월 1일댓글 수 로딩 중