[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.#Review#Text-to-Video Generation#Multi-Agent System#Brand Integration#Prompt Engineering#Large Language Models (LLMs)#LoRA Fine-tuning#Contextual Adaptation2026년 3월 10일댓글 수 로딩 중
[논문리뷰] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers본 논문은 Diffusion Transformers (DiTs) 의 높은 계산 비용 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Transformers#Dynamic Tokenization#Patch Scheduling#Inference Acceleration#Text-to-Image Generation#Text-to-Video Generation#Latent Manifold Analysis#LoRA2026년 2월 19일댓글 수 로딩 중
[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Post-Training#Optimal Transport#Reward Modeling#Annotation-free#Vision-Language Models#Diffusion Models2026년 2월 2일댓글 수 로딩 중
[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Text-to-Video Generation#Physics-Aware AI#Direct Preference Optimization#Groupwise Preference Learning#Vision-Language Model#LoRA2025년 12월 31일댓글 수 로딩 중
[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.#Review#Text Encoder#Diffusion Models#Text Embedding#Evaluation Benchmark#MLLM Fine-tuning#Layer-wise Weighting#Text-to-Image Generation#Text-to-Video Generation2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Composing Concepts from Images and Videos via Concept-prompt Binding본 논문은 복잡한 시각적 개념(예: 스타일, 모션)을 이미지 및 비디오 입력에서 정확하게 추출하고, 이를 유연하게 조합하여 일관된 시각적 출력을 생성하는 문제를 해결하고자 합니다.#Review#Visual Concept Composition#Diffusion Models#Text-to-Video Generation#Concept Binding#Hierarchical Binder#Diversify-and-Absorb Mechanism#Temporal Disentanglement#One-shot Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Bridging Text and Video Generation: A Survey본 논문은 텍스트-투-비디오(T2V) 생성 모델의 발전 과정을 포괄적으로 분석하고, 초기 GANs 및 VAEs 기반 모델부터 최신 확산 기반 아키텍처까지 주요 혁신과 한계를 조명하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Generative Models#Diffusion Models#GANs#VAEs#Video Synthesis#Survey#Evaluation Metrics2025년 10월 9일댓글 수 로딩 중
[논문리뷰] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling본 논문은 사용자 제공 프롬프트가 짧고 구조화되지 않으며 훈련 데이터와 불일치하여 확산 기반 T2V 모델 의 생성 잠재력을 제한하는 문제를 해결합니다. 생성 백본 모델을 수정하지 않으면서 T2V 생성 품질 을 대폭 향상시키기 위한 프롬프트 최적화 프레임워크를 제안하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Prompt Optimization#Large Language Models (LLM)#Test-Time Scaling#Retrieval-Augmented Generation#Diffusion Models#Data Alignment2025년 10월 27일댓글 수 로딩 중
[논문리뷰] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives현재 텍스트-투-비디오(T2V) 모델들이 단일 클립 생성에는 뛰어나지만, 스토리텔링의 본질인 다중 샷(multi-shot) 내러티브 를 일관성 있게 생성하는 데 실패하는 '내러티브 격차'를 해소하는 것을 목표로 합니다.#Review#Text-to-Video Generation#Multi-Shot Video#Narrative Coherence#Diffusion Models#Self-Attention#Cinematic AI#Video Consistency#Directorial Control2025년 10월 24일댓글 수 로딩 중
[논문리뷰] VISTA: A Test-Time Self-Improving Video Generation Agent본 논문은 텍스트-투-비디오(T2V) 생성 모델이 사용자 프롬프트에 매우 민감 하여 고품질 비디오를 얻기 위한 반복적인 프롬프트 수정과 필터링이 필요하다는 문제를 해결하고자 합니다.#Review#Text-to-Video Generation#Prompt Optimization#Multi-Agent System#Test-Time Improvement#MLLM-as-a-Judge#Video Evaluation#Audio-Video Synthesis2025년 10월 20일댓글 수 로딩 중