[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and GroundingMohammadreza Salehi이 arXiv에 게시한 'Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Video Understanding#Grounding#Open Weights#Open Data#Multimodal AI#Object Tracking#Dense Captioning2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Factorized Learning for Temporally Grounded Video-Language ModelsarXiv에 게시된 'Factorized Learning for Temporally Grounded Video-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Video-Language Models#Temporal Grounding#Factorized Learning#Preference Optimization#Evidence Referencing#Video Understanding#Dense Captioning2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Dense Motion CaptioningPaolo Rota이 arXiv에 게시한 'Dense Motion Captioning' 논문에 대한 자세한 리뷰입니다.#Review#3D Human Motion#Dense Captioning#Large Language Models#Motion Understanding#Temporal Localization#Human-Language Datasets#Motion Generation2025년 11월 9일댓글 수 로딩 중