[논문리뷰] Hierarchical Codec Diffusion for Video-to-Speech Generation본 논문은 기존 VTS 방법론들이 음성의 계층적 구조를 간과함으로써 시각 정보와 음성 특징 간의 효과적인 정렬에 한계를 보이는 문제를 해결하고자 한다.#Review#Video-to-Speech#Discrete Diffusion Models#Hierarchical Modeling#Audio-Visual Alignment#Residual Vector Quantization#Transformer2026년 4월 19일댓글 수 로딩 중
[논문리뷰] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization영상 편집은 시각적 스토리텔링과 오디오의 리듬감을 결합하는 복잡한 작업이나, 수 시간 분량의 원본 영상을 수동으로 편집하는 것은 매우 노동 집약적이며 전문적인 미적 판단을 요구합니다.#Review#Multimodal Language Models#Video Editing#Audio-Visual Alignment#Multi-Agent System#Hierarchical Planning2026년 3월 31일댓글 수 로딩 중