#Dual-stream Transformer

1개의 포스트

[논문리뷰] AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

본 논문은 기존 오디오-비디오(AV) 생성 모델들이 겪고 있는 고비용의 Dual-branch 아키텍처 문제와 모달리티 간 Representation Gap을 해결하고자 합니다 .

#Review #Audio-Video Generation #Unified Tokenization #1D Latent Representation #Dual-stream Transformer #Hierarchical Training #Multimodal Learning

2026년 6월 30일