#Diffusion Transformers (DiT)

4개의 포스트

[논문리뷰] Kling-MotionControl Technical Report

논문은 드라이빙 비디오와 참조 이미지를 기반으로 사실적이고 제어 가능한 홀리스틱 캐릭터 애니메이션 비디오를 생성 하는 것을 목표로 합니다.

#Review #Character Animation #Video Generation #Diffusion Transformers (DiT)#Motion Control #Identity Preservation #Cross-Identity Transfer #Inference Acceleration #Multi-Granular Motion

2026년 3월 3일

[논문리뷰] Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

본 논문은 Diffusion Transformer (DiT) 기반의 Image-to-Video (I2V) 모델에서 텍스트 프롬프트에 대한 제어력 부족 문제를 해결하고자 합니다.

#Review #Video Diffusion Models #Image-to-Video Generation #Diffusion Transformers (DiT)#Controllability #Semantic Alignment #Focal Guidance #Prompt Adherence

2026년 1월 14일

[논문리뷰] Mixture of Contexts for Long Video Generation

본 논문은 Diffusion Transformer (DiT) 기반의 장시간 비디오 생성 모델에서 발생하는 quadratic cost의 self-attention 문제로 인한 연산 및 메모리 비효율성을 해결하고, 모델이 긴 시퀀스에 걸쳐 일관된 장기 기억 을 유지하면서 표류하거나 붕괴되지 않도록 하는 것을 목표로 합니다.

#Review #Long Video Generation #Diffusion Transformers (DiT)#Sparse Attention #Context Routing #Memory Management #Generative Models #Video Synthesis

2025년 8월 29일

[논문리뷰] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

기존 비디오 아바타 모델이 오디오 리듬에 국한된 물리적 애니메이션만 생성하는 한계를 넘어, 감정, 의도, 문맥을 깊이 이해하여 의미론적으로 일관되고 표현력이 풍부한 캐릭터 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Video Avatar Generation #Cognitive Simulation #Multimodal Large Language Models (MLLMs)#Diffusion Transformers (DiT)#Multimodal Fusion #Human Motion Synthesis #Contextual Animation

2025년 8월 27일