[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration본 논문은 실시간 streaming 환경에서 긴 호흡의(long-horizon) 캐릭터 오디오-비디오를 생성할 때 발생하는 transcript-audio 불일치와 시각적 품질 저하 문제를 해결합니다 .#Review#Streaming#Character Animation#Audio-Video Generation#Decoupled Orchestration#Diffusion Transformer#Knowledge Distillation#Long-Horizon Coherence2026년 6월 1일댓글 수 로딩 중
[논문리뷰] SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer본 논문은 실시간 스트리밍 Video-to-Video(V2V) 편집에서 발생하는 시간적 일관성 유지와 추론 성능 제한 문제를 해결하기 위해 SANA-Streaming을 제안한다.#Review#Diffusion Transformer#Streaming Video Editing#Hybrid Architecture#Cycle-Reverse Regularization#Mixed-Precision Quantization#Real-time Inference2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players본 논문은 기존 비디오 세계 모델이 단일 에이전트 환경에 집중되어 있어, 다중 에이전트가 상호작용하는 복잡한 공유 환경을 효율적으로 시뮬레이션하지 못하는 문제를 해결합니다.#Review#Generative World Model#Multi-Agent Interaction#Diffusion Transformer#Permutation Symmetry#Rotary Positional Embedding#Sparse Hub Attention2026년 5월 27일댓글 수 로딩 중
[논문리뷰] GEM: Generative Supervision Helps Embodied Intelligence본 논문은 현재의 Embodied VLM들이 고수준의 언어적 추론에는 능숙하지만, 실제 물리 환경에서 로봇을 제어하기 위한 미세한 공간적 구조와 물리적 인지 능력이 결합되지 못하는 한계를 해결하고자 합니다.#Review#Embodied Intelligence#Vision-Language Models#Generative Supervision#Depth Map Prediction#Diffusion Transformer#Robot Manipulation#Spatiotemporal Planning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] CubePart: An Open-Vocabulary Part-Controllable 3D Generator기존의 3D 생성 모델은 모놀리식 메쉬(monolithic mesh)를 생성하거나, 사용자가 제어할 수 없는 임의의 파트 단위로만 분해하여 게임 엔진이나 물리 시뮬레이션 환경에 필요한 특정 구조와 정렬하기 어렵습니다.#Review#3D Generation#Part-Controllable#Open-Vocabulary#Diffusion Transformer#Schema-driven#Game Asset2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.#Review#Video Diffusion#Multimodal Large Language Models#Latent Semantic Planning#Diffusion Transformer#Video Editing#Chain-of-Thought2026년 5월 21일댓글 수 로딩 중
[논문리뷰] iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance기존의 비디오 가상 피팅(VVT) 연구는 주로 피동적인 피사체나 단순한 움직임만을 다루어, 실제 이커머스 라이브 스트리밍 등에서 발생하는 인간-의류 간의 복잡한 상호작용을 포착하지 못한다는 한계가 있습니다.#Review#Video Virtual Try-On#Interactive VVT#Diffusion Transformer#3D Hand Prior#Action-aware Semantic Guidance#Action-aware Constraint Loss2026년 5월 20일댓글 수 로딩 중
[논문리뷰] OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation본 연구는 로봇 학습을 위한 고품질 데이터 수집의 높은 비용과 확장성 문제를 해결하기 위해, 다양한 humanoid embodiment 간의 cross-embodiment video generation을 수행하고자 합니다.#Review#Cross-embodiment Video Generation#Diffusion Transformer#Embodiment-specific Adaptation#Streaming Inference#Paired-free Learning2026년 5월 17일댓글 수 로딩 중
[논문리뷰] ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing본 논문은 기존의 RSCD 연구들이 주로 픽셀 단위의 결정론적 분류(discriminative classification)에 의존하고 있어, 지역적 일관성 부족과 모호성 처리에 한계가 있다는 점을 지적합니다.#Review#Remote Sensing Change Detection#Rectified Flow#Generative Models#Latent Space#Diffusion Transformer#Coherence#Confidence Estimation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.#Review#World Model#Diffusion Transformer#Long-context Modeling#Camera Control#6-DoF Trajectory#Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation본 논문은 2K 고해상도 I2V 생성에서 발생하는 계산 효율성(Efficiency)과 입력 이미지 충실도(Fidelity) 사이의 심각한 trade-off 문제를 해결하고자 한다.#Review#Image-to-Video#High-Resolution Generation#Diffusion Transformer#Conditional Segment-wise Generation#Efficiency#Streaming Inference2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.#Review#Embodied AI#World Models#Diffusion Transformer#3D Reconstruction#Robotic Manipulation#Asynchronous Denoising#Unified Modeling2026년 4월 29일댓글 수 로딩 중
[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.#Review#Human Video Generation#Image-First Synthesis#Flow Matching#Temporal Consistency#SMPL-X#Diffusion Transformer2026년 4월 22일댓글 수 로딩 중
[논문리뷰] CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation본 논문은 사람·물체·텍스트·음성을 입력으로 받는 인간-객체 상호작용(HOI) 비디오 합성에서, 손과 얼굴의 구조적 안정성과 물리적으로 타당한 접촉을 보장하기 위해 Human-Aware MoE와 Spatially-Structured Co-Generation을 결합한 CoInteract을 제안합니다.#Review#Human-Object Interaction#Diffusion Transformer#Video Synthesis#Mixture of Experts#Physical Consistency#Co-Generation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing본 논문은 HOI(Human-Object Interaction)의 생성과 편집이 서로 분리된 연구 흐름으로 발전해 온 비효율성을 해결하기 위해 통합 프레임워크인 OneHOI를 제안합니다.#Review#Human-Object Interaction#Diffusion Transformer#Image Editing#Unified Framework#Relational Modeling#Spatial Control2026년 4월 16일댓글 수 로딩 중
[논문리뷰] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models본 논문은 최신 Text-to-Video (T2V) 모델들이 고품질 영상을 생성함에도 불구하고, 프롬프트에 명시된 객체의 수를 정확하게 반영하지 못하는 수치적 정렬(numerical misalignment) 문제를 해결하고자 합니다.#Review#Text-to-Video#Diffusion Transformer#Numerical Alignment#Training-free#Layout-guided Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.#Review#MegaStyle#Style Transfer#Data Curation#Diffusion Transformer#Contrastive Learning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] LPM 1.0: Video-based Character Performance Model본 논문은 정체성 인식 다중 참조 추출과 오디오-비디오 페어링이 포함된 고품질 데이터셋을 구축하고, 이를 기반으로 Diffusion Transformer 모델을 학습시켰습니다. 모델은 Base LPM을 통해 정체성을 보존하며, 이를 Online LPM으로 증류하여 낮은 지연 시간 내에 무한한 길이의 스트리밍 영상을 생성합니다.#Review#Large Performance Model#Full-Duplex#Diffusion Transformer#Identity-Consistent#Real-Time Inference#Streaming Generation#LPM-Bench2026년 4월 9일댓글 수 로딩 중
[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.#Review#World Model#Spatiotemporal Autoregressive#Diffusion Transformer#Camera Control#Distribution Matching Distillation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision본 논문은 Vanast를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module은 인간 애니메이션 모듈(HAM)과 의류 전송 모듈(GTM)로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 .#Review#Virtual Try-On#Human Image Animation#Diffusion Transformer#Synthetic Triplet Supervision#Dual Module Architecture#Zero-shot Garment Interpolation2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.#Review#Diffusion Transformer#Linear Attention#Controllable Generation#Gated Condition Injection#On-device AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.#Review#Diffusion Transformer#Multimodal Face Generation#Cross-Modal Fusion#RoPE Attention#Controlled Generation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied SimulationEmbodied AI 분야에서 로봇 trajectory를 세계 환경 내에서 roll out하는 능력은 demonstration 확장, policy evaluation 및 reinforcement learning에 매우 중요합니다.#Review#Embodied AI#4D Generative World Model#Spatiotemporal-aware#Kinematic Control#Robotic Simulation#Diffusion Transformer#Pointmap2026년 3월 17일댓글 수 로딩 중
[논문리뷰] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation논문은 기존 Text-to-Music(T2M) 모델의 한계인 비디오 이벤트와의 정밀한 시간 정렬 제어 부족 문제를 해결하고, V2M-ZERO 라는 Zero-Pair 비디오-투-음악 생성 접근 방식을 제안합니다.#Review#Video-to-Music Generation#Temporal Alignment#Zero-Pair Learning#Rectified Flow Model#Diffusion Transformer#Event Curves#Modality Gap Mitigation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing이 논문은 기존의 통합 이미지 편집 모델들이 고정된 공유 백본을 사용함으로써 다중 조건(텍스트, 마스크, 참조 이미지) 입력 시 발생하는 태스크 간섭, 색상 번짐, 정체성/스타일 왜곡 등의 문제를 해결하고자 합니다.#Review#Image Editing#Diffusion Models#Mixture-of-Experts (MoE)#Condition-Aware Routing#Contextual Image Editing#Mask Repaint#Latent Mixture#Diffusion Transformer2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Dynamic Chunking Diffusion Transformer본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.#Review#Diffusion Transformer#Dynamic Chunking#Adaptive Patching#Image Generation#Computational Efficiency#Token Reduction#Spatial Segmentation#Load Balancing2026년 3월 8일댓글 수 로딩 중
[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model이 논문은 텍스트, 이미지, 비디오, 마스크, 오디오 참조를 포함한 다양한 입력을 처리하고, 비디오-오디오 생성, 인페인팅 및 편집 기능을 단일 프레임워크 내에서 통합적으로 지원하는 멀티모달 비디오 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Multi-modal Generation#Video-Audio Synthesis#Video Inpainting#Video Editing#Diffusion Transformer#MMLM#Super-resolution#Frame Interpolation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.#Review#Joint Audio-Video Generation#Diffusion Transformer#Modality-specific Mixture-of-Experts#Temporal-Aligned ROPE#Direct Preference Optimization#Multimodal Generation#Text-to-AV2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Audio-Video Generation#Human-Centric AI#Diffusion Transformer#Multi-Task Learning#Identity Disentanglement#Controllable Generation#Speaker Confusion2026년 2월 25일댓글 수 로딩 중
[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.#Review#Image Editing#Diffusion Transformer#Instruction-based Editing#Data Curation#Reinforcement Learning#Multimodal Models#REDEdit-Bench#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Real-Time Robotics#Diffusion Transformer#Flow Matching#Asynchronous Execution#Robot Manipulation#Pre-training#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.#Apple Silicon#MLX#Diffusion Transformer#Performance Optimization#PyTorch2026년 2월 11일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Plenoptic Video Generation본 논문은 기존 카메라 제어형 비디오 재렌더링 방법들이 다중 뷰 시나리오에서 일관된 시공간적 일관성을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Generative Video#Camera Control#Plenoptic Function#Autoregressive Model#Diffusion Transformer#3D FOV Retrieval#Spatio-Temporal Consistency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.#Review#Video Face Swapping#Diffusion Transformer#Identity Preservation#Temporal Consistency#Modality-Aware Conditioning#Reinforcement Learning#Data Synthesis2026년 1월 5일댓글 수 로딩 중
[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Transformer#Image Editing#Selective Editing#Computational Efficiency#Training-Free#Region-Aware#Perceptual Similarity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Kling-Omni Technical Report논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.#Review#Video Generation#Multimodal Visual Language#Generative AI#Video Editing#Reasoning-enhanced Generation#Diffusion Transformer#Multi-modal World Simulators2025년 12월 18일댓글 수 로딩 중
[논문리뷰] OmniPSD: Layered PSD Generation with Diffusion Transformer본 논문은 기존 생성 모델의 한계인 단일 평면 이미지 출력 문제를 해결하고, 투명한 알파 채널을 포함하는 레이어드 PSD 파일 을 생성 및 재구성하는 통합 프레임워크인 OmniPSD 를 제안합니다.#Review#Diffusion Transformer#PSD Generation#Image Decomposition#RGBA-VAE#In-Context Learning#Text-to-PSD#Image-to-PSD2025년 12월 10일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations기존 캐릭터 애니메이션 방법론이 복잡한 모션, 크로스-아이덴티티 애니메이션, 다중 캐릭터 상호작용 등 스튜디오 수준의 제작 요구 사항을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Character Animation#3D Pose Representation#In-Context Learning#Diffusion Transformer#Studio-Grade Animation#Spatio-Temporal Reasoning#Video Generation2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Plan-X: Instruct Video Generation via Semantic Planning기존 비디오 확산 모델(DiT)이 복잡한 사용자 지시 및 장기 계획에서 겪는 높은 수준의 의미론적 추론 및 계획 능력 부족 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Semantic Planning#Multimodal LLM#Diffusion Transformer#Spatio-temporal Guidance#Visual Hallucination#Prompt Alignment#Instruction Following2025년 11월 24일댓글 수 로딩 중
[논문리뷰] HunyuanVideo 1.5 Technical Report경량화되면서도 강력한 오픈소스 비디오 생성 모델 Hunyuan Video 1.5 를 개발하여, 8.3억 파라미터로 최첨단 시각 품질과 움직임 일관성을 달성하고, 소비자용 GPU에서 효율적인 추론을 가능하게 하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformer#Sparse Attention#Super-Resolution#Open-Source#Multimodal Understanding#Training Optimization#Efficient Inference2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation본 논문은 고품질의 일관되고 제어 가능한 이미지 및 비디오 생성을 위한 AI/ML 분야의 핵심 과제를 해결하고자 합니다. 특히, 최신 이미지 및 10초 비디오 합성을 위한 Kandinsky 5.0 이라는 최첨단 파운데이션 모델 제품군을 개발하여 최고 수준의 품질과 운영 효율성을 달성하는 것을 목표로 합니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.#Review#Joint Audio-Video Generation#Cross-Modal Interaction#Diffusion Transformer#Face-Aware Modulation#Classifier-Free Guidance#Multimodal AI#Generative Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.#Review#Unified Vision Modeling#Video Generation#Diffusion Transformer#Supervised Fine-tuning#Cross-modal#Cross-source Tasks#Visual Sentences#LoRA2025년 9월 29일댓글 수 로딩 중
[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer본 논문은 알 수 없는 혼합된 열화가 적용된 실제 저품질(LQ) 이미지에 대해 의미론적 일관성과 지각적 충실도를 유지하면서 범용 이미지 복원(UIR)을 수행하는 것을 목표로 합니다.#Review#Universal Image Restoration#Diffusion Transformer#Caption-Free#Semantic Alignment#Image Quality Assessment#Data Curation#Real-World Degradations#Deep Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.#Review#Multimodal Image Generation#Diffusion Transformer#VAE#Image Editing#Text-to-Image#Model Acceleration#Human Evaluation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.#Review#Personalized Video Generation#Diffusion Transformer#Identity Preservation#Video Synthesis#Adapter Networks#Facial Recognition#Cross-Attention2025년 9월 22일댓글 수 로딩 중
[논문리뷰] From Editor to Dense Geometry Estimator본 논문은 기존의 텍스트-투-이미지(T2I) 생성 모델보다 Diffusion Transformer (DiT) 기반의 이미지 편집 모델이 단안 밀집 기하학 추정(depth 및 normal) 작업에 더 적합한 파운데이션 모델임을 증명하고, 이를 기반으로 FE2E 라는 새로운 프레임워크를 개발하여 제한된 훈련 데이터로도 뛰어난 제로샷 성능을 달성하는 것을 목표로 합니다.#Review#Dense Geometry Estimation#Diffusion Transformer#Image Editing#Zero-shot Learning#Depth Estimation#Normal Estimation#Flow Matching#Logarithmic Quantization2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation논문은 기존 생성 모델이 의미론적 제어와 사진 같은 사실성 사이의 섬세한 균형을 맞추는 데 어려움을 겪고, 특히 Diffusion Transformer (DiT) 가 복잡한 다중 모드 조건부 설정에서 충분히 탐색되지 않았다는 문제를 해결하고자 합니다.#Review#Diffusion Transformer#Mixture of Experts#Controllable Generation#Face Generation#Multimodal Synthesis#Semantic Control#Image Generation2025년 9월 4일댓글 수 로딩 중
[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion Transformer본 논문은 기존의 수동적이고 노동 집약적인 비디오 합성(Video Compositing) 과정을 생성형 모델 을 사용하여 자동화하는 것을 목표로 합니다.#Review#Video Compositing#Diffusion Transformer#Generative Models#Video Editing#Position Embedding#Diffusion Models#Masked Token Injection#Video Harmonization2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ROSE: Remove Objects with Side Effects in Videos기존 비디오 객체 제거 모델들이 객체의 그림자, 반사, 조명 변화 등 '측면 효과(side effects)' 를 효과적으로 제거하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Video Object Removal#Side Effects#3D Rendering#Diffusion Transformer#Video Inpainting#Synthetic Data#Difference Mask2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Cut2Next: Generating Next Shot via In-Context Tuning본 논문은 기존 비디오 생성 모델이 간과했던 영화적 내러티브 흐름과 편집 패턴(예: Shot/Reverse Shot , Cut-Out , Cutaway )을 준수하면서, 선행 샷에 영화적으로 일관성 있는 다음 샷을 생성 하는 새로운 태스크인 Next Shot Generation (NSG) 을 제안합니다.#Review#Next Shot Generation#In-Context Tuning#Diffusion Transformer#Cinematic Continuity#Hierarchical Prompting#Video Generation#Shot Editing2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off가상 의류 착용(try-on) 및 탈의(try-off) 시 사람의 자세 및 외형 변화에 따른 의류-신체 일치성 모델링과 세부 묘사의 정확성 유지라는 고질적인 문제를 해결하는 것입니다.#Review#Virtual Try-On#Virtual Try-Off#Diffusion Transformer#Bidirectional Learning#Generative AI#Fashion Synthesis#Attention Mechanism#Self-Correction2025년 8월 11일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical Report본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] UltraGen: High-Resolution Video Generation with Hierarchical Attention기존 Diffusion Transformer 기반 비디오 생성 모델들이 출력 해상도(예: <720P)에 따라 attention 메커니즘의 제곱 복잡도 로 인해 발생하는 높은 연산 비용 문제를 해결하는 것이 목표입니다.#Review#Video Generation#High-Resolution#Diffusion Transformer#Hierarchical Attention#Global-Local Attention#Computational Efficiency#4K Synthesis2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models본 논문은 대규모 비디오 생성 모델 의 훈련에서 발생하는 교차-모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 종속성 문제를 해결하기 위해 고효율 훈련 프레임워크 를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformer#Large-scale Training#Megatron-Core#Video VAE#E-commerce AI#High-efficiency Pipeline#Preference Optimization2025년 10월 22일댓글 수 로딩 중
[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing본 논문은 기존의 훈련 없이(training-free) 텍스트 기반 시각 편집 방법론이 겪는 한계, 즉 강한 편집 강도를 유지하면서도 원본과의 일관성을 보존하기 어렵다는 문제를 해결하고자 합니다.#Review#Image Editing#Video Editing#Diffusion Transformer#Attention Control#Training-free#Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration기존 비디오 생성 모델들이 복잡한 공간 관계, 시간적 논리, 다중 주체 상호작용을 포함하는 프롬프트를 처리할 때 주체 일관성을 유지하는 데 어려움을 겪는 문제를 해결하는 것입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중