#Text-to-Video Generation

10개의 포스트

[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.

#Review #Text-to-Video Generation #Multi-Agent System #Brand Integration #Prompt Engineering #Large Language Models (LLMs)#LoRA Fine-tuning #Contextual Adaptation

2026년 3월 10일

[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformers #Dynamic Tokenization #Patch Scheduling #Inference Acceleration #Text-to-Image Generation #Text-to-Video Generation #Latent Manifold Analysis #LoRA

2026년 2월 19일

[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Post-Training #Optimal Transport #Reward Modeling #Annotation-free #Vision-Language Models #Diffusion Models

2026년 2월 2일

[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Physics-Aware AI #Direct Preference Optimization #Groupwise Preference Learning #Vision-Language Model #LoRA

2025년 12월 31일

[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.

#Review #Text Encoder #Diffusion Models #Text Embedding #Evaluation Benchmark #MLLM Fine-tuning #Layer-wise Weighting #Text-to-Image Generation #Text-to-Video Generation

2025년 12월 29일

[논문리뷰] Composing Concepts from Images and Videos via Concept-prompt Binding

본 논문은 복잡한 시각적 개념(예: 스타일, 모션)을 이미지 및 비디오 입력에서 정확하게 추출하고, 이를 유연하게 조합하여 일관된 시각적 출력을 생성하는 문제를 해결하고자 합니다.

#Review #Visual Concept Composition #Diffusion Models #Text-to-Video Generation #Concept Binding #Hierarchical Binder #Diversify-and-Absorb Mechanism #Temporal Disentanglement #One-shot Learning

2025년 12월 10일

[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

본 논문은 사용자 제공 프롬프트가 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델 의 생성 잠재력을 제한하는 문제를 해결합니다. 생성 백본 모델을 수정하지 않으면서 T2V 생성 품질 을 대폭 향상시키기 위한 프롬프트 최적화 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Prompt Optimization #Large Language Models (LLM)#Test-Time Scaling #Retrieval-Augmented Generation #Diffusion Models #Data Alignment

2025년 10월 27일

[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

현재 텍스트-투-비디오(T2V) 모델들이 단일 클립 생성에는 뛰어나지만, 스토리텔링의 본질인 다중 샷(multi-shot) 내러티브 를 일관성 있게 생성하는 데 실패하는 '내러티브 격차'를 해소하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Multi-Shot Video #Narrative Coherence #Diffusion Models #Self-Attention #Cinematic AI #Video Consistency #Directorial Control

2025년 10월 24일

[논문리뷰] VISTA: A Test-Time Self-Improving Video Generation Agent

본 논문은 텍스트-투-비디오(T2V) 생성 모델이 사용자 프롬프트에 매우 민감 하여 고품질 비디오를 얻기 위한 반복적인 프롬프트 수정과 필터링이 필요하다는 문제를 해결하고자 합니다.

#Review #Text-to-Video Generation #Prompt Optimization #Multi-Agent System #Test-Time Improvement #MLLM-as-a-Judge #Video Evaluation #Audio-Video Synthesis

2025년 10월 20일

[논문리뷰] Bridging Text and Video Generation: A Survey

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 발전 과정을 포괄적으로 분석하고, 초기 GANs 및 VAEs 기반 모델부터 최신 확산 기반 아키텍처까지 주요 혁신과 한계를 조명하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Generative Models #Diffusion Models #GANs #VAEs #Video Synthesis #Survey #Evaluation Metrics

2025년 10월 9일