[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Video Understanding#Grounding#Open Weights#Open Data#Multimodal AI#Object Tracking#Dense Captioning2026년 1월 15일댓글 수 로딩 중