[논문리뷰] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music GenerationarXiv에 게시된 'V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video-to-Music Generation#Temporal Alignment#Zero-Pair Learning#Rectified Flow Model#Diffusion Transformer#Event Curves#Modality Gap Mitigation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning FrameworkGiuseppe Amato이 arXiv에 게시한 'One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework' 논문에 대한 자세한 리뷰입니다.#Review#Zero-Shot Captioning#Region-Level Captioning#Vision Transformers#DINOv2#Patch-Centric#Modality Gap Mitigation#Visual-Language Models2025년 10월 13일댓글 수 로딩 중