[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion ModelsarXiv에 게시된 'When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video#Diffusion Transformer#Numerical Alignment#Training-free#Layout-guided Generation2026년 4월 9일댓글 수 로딩 중