#Text-to-Video

17개의 포스트

[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.

#Review #Text-to-Video #Diffusion Transformer #Numerical Alignment #Training-free #Layout-guided Generation

2026년 4월 9일

[논문리뷰] LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

최근 Diffusion Model의 발전으로 Text-to-Video 생성 능력이 크게 향상되어, 전경(foreground)과 배경(background) 요소에 대한 fine-grained control을 통해 개인화된 콘텐츠 생성이 가능해졌습니다.

#Review #Personalized Video Generation #Multi-Subject #Face-Attribute Alignment #Diffusion Models #Attention Mechanisms #Relational Embedding #Text-to-Video

2026년 3월 22일

[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model

본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.

#Review #Interactive World Generation #Video Diffusion Models #Text-to-Video #Image-to-Video #Real-time Generation #Temporal-Spatial-Channel Modeling #Self-Forcing

2025년 12월 29일

[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

기존 비디오 생성 시스템이 감성적 차원을 소홀히 다루고 특히 스타일화되거나 비현실적인 콘텐츠에서 감정 이해와 생성 간의 격차가 크다는 문제를 해결하고자 합니다.

#Review #Multimodal Dataset #Emotion Recognition #Video Generation #Affective Computing #Stylized Media #Diffusion Models #Video Understanding #Text-to-Video

2025년 11월 16일

[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.

#Review #Human-Centric Video Generation #Multimodal Conditioning #Text-to-Video #Image-to-Video #Audio-to-Video #Diffusion Models #Subject Preservation #Audio-Visual Synchronization #Progressive Training

2025년 9월 12일

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.

#Review #Reward Model #Visual Generation #RLHF #VLM #Reward Scaling #Reward Hacking #Generative Paradigm #Context Scaling #Text-to-Image #Text-to-Video

2025년 9월 11일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation

본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Video Generation #Metric Path #Long Video Generation #Asynchronous Scheduling #Text-to-Video #Multimodal Generation

2025년 10월 29일

[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

현재 다중 모달 생성 모델이 다양한 영어 방언 텍스트 입력에 대해 효과적으로 콘텐츠를 생성할 수 있는지 평가하고, 방언 사용자들이 겪는 성능 저하 문제를 해결하는 것이 주요 목표입니다.

#Review #Multimodal Generation #Dialect Robustness #Text-to-Image #Text-to-Video #Benchmarking #Diffusion Models #Text Encoder Tuning #Low-Resource Dialects

2025년 10월 17일

[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Multi-Modal Generation #Latent Diffusion Models #Cascaded Framework #Condition Injection #Text-to-Video #Video Editing #4K Video

2025년 10월 10일

[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.

#Review #Diffusion Distillation #Consistency Models #Score Regularization #Large-Scale Generative Models #Text-to-Image #Text-to-Video #Model Acceleration #JVP

2025년 10월 10일

[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation

본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Transformers #Human-Object Interaction #Attention Alignment #Mask Tracking #Semantic Grounding #Semantic Propagation #Text-to-Video

2025년 10월 9일

[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

기존 Referring Video Object Segmentation (RVOS) 패러다임인 'locate-then-segment' 방식이 정보 병목 현상과 시간적 일관성 부족으로 복잡한 언어 및 동적 비디오 처리에 한계를 보이는 문제를 해결하는 것입니다.

#Review #Referring Video Object Segmentation #Flow Matching #Video Segmentation #Generative Models #Text-to-Video #Continuous Flow #Diffusion Models

2025년 10월 8일

[논문리뷰] Character Mixing for Video Generation

이 논문은 비디오 생성에서 비공존 캐릭터 간의 자연스러운 상호작용 을 가능하게 하는 것을 목표로 합니다.

#Review #Video Generation #Character Mixing #Style Preservation #Multi-character Interaction #Text-to-Video #Cross-Domain Synthesis #Identity Preservation

2025년 10월 7일

[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty

비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Uncertainty Quantification #Aleatoric Uncertainty #Epistemic Uncertainty #Model Calibration #Text-to-Video #Generative AI #VMF Distribution

2025년 10월 6일

[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.

#Review #Video Generation #Subject Consistency #Cross-Modal Integration #Diffusion Models #Multimodal LLM #Diffusion Transformer #Text-to-Video

2025년 10월 2일

[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation

본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generation #Evaluation Framework #Cinematic Control #Taxonomy #Human Annotation #Vision-Language Models #Text-to-Video

2025년 10월 1일