[논문리뷰] AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation본 논문은 기존 오디오-비디오(AV) 생성 모델들이 겪고 있는 고비용의 Dual-branch 아키텍처 문제와 모달리티 간 Representation Gap을 해결하고자 합니다 .#Review#Audio-Video Generation#Unified Tokenization#1D Latent Representation#Dual-stream Transformer#Hierarchical Training#Multimodal Learning2026년 6월 30일댓글 수 로딩 중