[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation ModelAndrew Kvochko이 arXiv에 게시한 'LTX-2: Efficient Joint Audio-Visual Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중