[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

2026년 4월 9일수정: 2026년 4월 9일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Zhengyang Sun, Yu Chen, Xin Zhou, Xiaofan Li, Xiwu Chen, Dingkang Liang, Xiang Bai

1. Key Terms & Definitions (핵심 용어 및 정의)

NUMINA : 프롬프트의 숫자 정보와 영상 내 객체 수를 일치시키기 위해 제안된 훈련 불필요(training-free) 프레임워크입니다.
Identify-then-Guide Paradigm : 영상 생성 초기 단계에서 숫자가 일치하지 않는 문제를 파악(Identify)하고, 이를 보정된 레이아웃으로 안내(Guide)하는 NUMINA의 핵심 방법론입니다.
DiT (Diffusion Transformer) : 텍스트-비디오 생성의 기반이 되는 아키텍처로, 본 논문에서는 NUMINA가 이 구조의 Attention 메커니즘을 활용하여 수치 정렬을 수행합니다.
CountBench : 본 논문에서 도입한, 1~8개의 객체 수를 포함하는 다양한 프롬프트로 구성된 수치 정렬 평가 벤치마크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다. 기존의 Diffusion Transformer (DiT) 기반 모델들은 시공간 잠재 공간(spatiotemporal latent space)의 압축으로 인해 개별 객체 분리 능력이 부족하고, 수치 토큰이 잠재 공간에서 충분한 의미적 근거(semantic grounding)를 확보하지 못하는 한계가 있습니다 [Figure 1]. 이러한 문제를 해결하기 위해 모델을 재학습하는 것은 막대한 비용이 소요되므로, 저자들은 훈련 없이 영상 생성 프로세스 내에서 직접적으로 수치 제어를 수행하는 새로운 접근 방식을 제안합니다.

Figure 1: NUMINA 개요 및 수치 정렬 예시

Figure 1 — NUMINA 개요 및 수치 정렬 예시

3. Method & Key Results (제안 방법론 및 핵심 결과)

NUMINA는 두 단계로 구성된 Identify-then-Guide 프레임워크를 통해 수치적 정렬을 달성합니다 [Figure 3]. 첫 번째 단계인 Numerical Misalignment Identification 에서는 사전 생성(pre-generation) 과정에서 self-attention 및 cross-attention 헤드를 동적으로 선택하여 객체 인스턴스를 명시적으로 카운팅할 수 있는 레이아웃을 구성합니다 [Figure 4]. 두 번째 단계인 Numerically Aligned Video Generation 에서는 이 레이아웃을 기반으로 객체 추가 또는 삭제를 포함한 보정 작업을 수행하고, 최종적으로 보정된 레이아웃을 사용하여 영상을 재합성(re-synthesis)합니다. 실험 결과, Wan2.1-1.3B 모델에서 CountAcc 를 42.3%에서 49.7%로 7.4%p 대폭 향상시켰으며, 더 큰 모델인 5B 와 14B 에서도 각각 4.9%p, 5.5%p의 성능 향상을 기록했습니다 [Table 1]. 또한, CLIP score 향상을 통해 텍스트-비디오 정렬 능력이 개선되었음을 확인했으며, Temporal Consistency (TC) 측면에서도 안정성을 유지했습니다.

Figure 3: NUMINA의 두 단계 파이프라인

Figure 3 — NUMINA의 두 단계 파이프라인

Figure 4: 인스턴스 식별 Attention 헤드 선택

Figure 4 — 인스턴스 식별 Attention 헤드 선택

4. Conclusion & Impact (결론 및 시사점)

본 논문은 T2V 모델의 attention 메커니즘이 인스턴스 정보와 밀접하게 연결되어 있음을 밝히고, 이를 활용한 훈련 불필요 프레임워크 NUMINA를 제안하여 수치 제어 능력을 혁신적으로 개선했습니다. 이 연구는 복잡한 수치 제약 조건이 필요한 산업적 영상 생성 응용 분야에서 모델의 신뢰도를 크게 높일 수 있는 실질적인 해법을 제공합니다. 향후 연구에서는 매우 밀집된 객체 수에 대한 정렬과 더불어, 더 고도화된 인스턴스 분리 기술을 통해 완벽한 수치 정확성을 달성하는 방향으로 발전할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning
현재글 : [논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models
다음글 [논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself