[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.#Review#Text-to-Video#Diffusion Transformer#Numerical Alignment#Training-free#Layout-guided Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation최근 Diffusion Model의 발전으로 Text-to-Video 생성 능력이 크게 향상되어, 전경(foreground)과 배경(background) 요소에 대한 fine-grained control을 통해 개인화된 콘텐츠 생성이 가능해졌습니다.#Review#Personalized Video Generation#Multi-Subject#Face-Attribute Alignment#Diffusion Models#Attention Mechanisms#Relational Embedding#Text-to-Video2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.#Review#Interactive World Generation#Video Diffusion Models#Text-to-Video#Image-to-Video#Real-time Generation#Temporal-Spatial-Channel Modeling#Self-Forcing2025년 12월 29일댓글 수 로딩 중
[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation기존 비디오 생성 시스템이 감성적 차원을 소홀히 다루고 특히 스타일화되거나 비현실적인 콘텐츠에서 감정 이해와 생성 간의 격차가 크다는 문제를 해결하고자 합니다.#Review#Multimodal Dataset#Emotion Recognition#Video Generation#Affective Computing#Stylized Media#Diffusion Models#Video Understanding#Text-to-Video2025년 11월 16일댓글 수 로딩 중
[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.#Review#Video Generation#Foundation Model#Diffusion Model#Transformer#Text-to-Video#Image-to-Video#Super-Resolution#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.#Review#Discrete Diffusion#Video Generation#Metric Path#Long Video Generation#Asynchronous Scheduling#Text-to-Video#Multimodal Generation2025년 10월 29일댓글 수 로딩 중
[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation현재 다중 모달 생성 모델이 다양한 영어 방언 텍스트 입력에 대해 효과적으로 콘텐츠를 생성할 수 있는지 평가하고, 방언 사용자들이 겪는 성능 저하 문제를 해결하는 것이 주요 목표입니다.#Review#Multimodal Generation#Dialect Robustness#Text-to-Image#Text-to-Video#Benchmarking#Diffusion Models#Text Encoder Tuning#Low-Resource Dialects2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.#Review#Video Super-Resolution#Multi-Modal Generation#Latent Diffusion Models#Cascaded Framework#Condition Injection#Text-to-Video#Video Editing#4K Video2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency본 논문은 연속 시간 일관성 증류 (sCM) 를 대규모 텍스트-투-이미지 (T2I) 및 텍스트-투-비디오 (T2V) 확산 모델에 적용할 때 발생하는 한계점을 해결하는 것을 목표로 합니다.#Review#Diffusion Distillation#Consistency Models#Score Regularization#Large-Scale Generative Models#Text-to-Image#Text-to-Video#Model Acceleration#JVP2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video Segmentation기존 Referring Video Object Segmentation (RVOS) 패러다임인 'locate-then-segment' 방식이 정보 병목 현상과 시간적 일관성 부족으로 복잡한 언어 및 동적 비디오 처리에 한계를 보이는 문제를 해결하는 것입니다.#Review#Referring Video Object Segmentation#Flow Matching#Video Segmentation#Generative Models#Text-to-Video#Continuous Flow#Diffusion Models2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Character Mixing for Video Generation이 논문은 비디오 생성에서 비공존 캐릭터 간의 자연스러운 상호작용 을 가능하게 하는 것을 목표로 합니다.#Review#Video Generation#Character Mixing#Style Preservation#Multi-character Interaction#Text-to-Video#Cross-Domain Synthesis#Identity Preservation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Video Generation#Uncertainty Quantification#Aleatoric Uncertainty#Epistemic Uncertainty#Model Calibration#Text-to-Video#Generative AI#VMF Distribution2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation본 논문은 기존 비디오 생성 모델 및 벤치마크가 전문적인 비디오 생성의 복잡성과 요구사항 을 충분히 반영하지 못하는 문제를 해결하고자 합니다.#Review#Video Generation#Evaluation Framework#Cinematic Control#Taxonomy#Human Annotation#Vision-Language Models#Text-to-Video2025년 10월 1일댓글 수 로딩 중