#Layout-guided Generation

1개의 포스트

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.

#Review #Text-to-Video #Diffusion Transformer #Numerical Alignment #Training-free #Layout-guided Generation

2026년 4월 9일