[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion ModelsarXiv에 게시된 'When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video#Diffusion Transformer#Numerical Alignment#Training-free#Layout-guided Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] LumosX: Relate Any Identities with Their Attributes for Personalized Video GenerationarXiv에 게시된 'LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Personalized Video Generation#Multi-Subject#Face-Attribute Alignment#Diffusion Models#Attention Mechanisms#Relational Embedding#Text-to-Video2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation ModelKaining Ying이 arXiv에 게시한 'Yume-1.5: A Text-Controlled Interactive World Generation Model' 논문에 대한 자세한 리뷰입니다.#Review#Interactive World Generation#Video Diffusion Models#Text-to-Video#Image-to-Video#Real-time Generation#Temporal-Spatial-Channel Modeling#Self-Forcing2025년 12월 29일댓글 수 로딩 중
[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and GenerationZeyu Wang이 arXiv에 게시한 'EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Dataset#Emotion Recognition#Video Generation#Affective Computing#Stylized Media#Diffusion Models#Video Understanding#Text-to-Video2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video GenerationarXiv에 게시된 'Uniform Discrete Diffusion with Metric Path for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Discrete Diffusion#Video Generation#Metric Path#Long Video Generation#Asynchronous Scheduling#Text-to-Video#Multimodal Generation2025년 10월 29일댓글 수 로딩 중
[논문리뷰] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal GenerationarXiv에 게시된 'DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Generation#Dialect Robustness#Text-to-Image#Text-to-Video#Benchmarking#Diffusion Models#Text Encoder Tuning#Low-Resource Dialects2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-ResolutionarXiv에 게시된 'UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution' 논문에 대한 자세한 리뷰입니다.#Review#Video Super-Resolution#Multi-Modal Generation#Latent Diffusion Models#Cascaded Framework#Condition Injection#Text-to-Video#Video Editing#4K Video2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Large Scale Diffusion Distillation via Score-Regularized Continuous-Time ConsistencyJintao Zhang이 arXiv에 게시한 'Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Distillation#Consistency Models#Score Regularization#Large-Scale Generative Models#Text-to-Image#Text-to-Video#Model Acceleration#JVP2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video GenerationHyunwook Choi이 arXiv에 게시한 'MATRIX: Mask Track Alignment for Interaction-aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Deforming Videos to Masks: Flow Matching for Referring Video SegmentationChengzu Li이 arXiv에 게시한 'Deforming Videos to Masks: Flow Matching for Referring Video Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#Referring Video Object Segmentation#Flow Matching#Video Segmentation#Generative Models#Text-to-Video#Continuous Flow#Diffusion Models2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Character Mixing for Video GenerationarXiv에 게시된 'Character Mixing for Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Character Mixing#Style Preservation#Multi-character Interaction#Text-to-Video#Cross-Domain Synthesis#Identity Preservation2025년 10월 7일댓글 수 로딩 중
[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their UncertaintyAnirudha Majumdar이 arXiv에 게시한 'How Confident are Video Models? Empowering Video Models to Express their Uncertainty' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Uncertainty Quantification#Aleatoric Uncertainty#Epistemic Uncertainty#Model Calibration#Text-to-Video#Generative AI#VMF Distribution2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal IntegrationXiangyang Xia이 arXiv에 게시한 'BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video GenerationarXiv에 게시된 'Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Evaluation Framework#Cinematic Control#Taxonomy#Human Annotation#Vision-Language Models#Text-to-Video2025년 10월 1일댓글 수 로딩 중
[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal ConditioningZhuowei Chen이 arXiv에 게시한 'HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning' 논문에 대한 자세한 리뷰입니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual GenerationLiang Li이 arXiv에 게시한 'RewardDance: Reward Scaling in Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Waver: Wave Your Way to Lifelike Video GenerationYifu Zhang이 arXiv에 게시한 'Waver: Wave Your Way to Lifelike Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Foundation Model#Diffusion Model#Transformer#Text-to-Video#Image-to-Video#Super-Resolution#Data Curation2025년 8월 22일댓글 수 로딩 중