[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.#Review#Video Foundation Models#Self-Supervised Learning#Masked Video Modeling#Video-Text Supervision-Free#Encoder-Predictor-Decoder#Diffusion Decoder#Semantic Alignment#Latent World Model2025년 12월 1일댓글 수 로딩 중