#DiT

5개의 포스트

[논문리뷰] PianoKontext: Expressive Performance Rendering from Deadpan Context

본 논문은 기존의 음악 생성 모델이 표현적 타이밍(Expressive timing)과 다성 음악(Polyphonic music)의 복잡성을 제대로 모델링하지 못하는 문제를 해결하기 위해 PianoKontext를 제안한다.

#Review #Expressive Performance Rendering #Flow Matching #Latent Diffusion #Dynamic Time Warping #Music2Latent #DiT #RoPE

2026년 6월 11일

[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석

FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.

#FlashInfer #CUDA #DiT #SageAttention #Quantization #DeepLearning

2026년 5월 1일

[논문리뷰] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

대규모 diffusion models 가 비디오 합성 능력을 혁신했지만, multi-subject identity 와 multi-granularity motion 에 대한 정밀한 제어는 여전히 중대한 과제로 남아있습니다.

#Review #Video Diffusion Models #Video Customization #Motion Control #Reinforcement Learning #Multi-Subject #Omni-Motion #Latent Identity #DiT

2026년 3월 12일

[논문리뷰] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

논문은 캐릭터 애니메이션과 교체를 위한 통합 프레임워크 를 제시하여, 동작, 표정, 환경 상호작용에 대한 총체적인 제어 를 고품질로 달성하는 것을 목표로 합니다. 기존 오픈소스 솔루션의 성능 및 기능적 한계를 극복하고, 다양한 시나리오에서 일관성과 표현력을 갖춘 캐릭터 비디오 생성을 가능하게 하고자 합니다.

#Review #Character Animation #Video Replacement #Diffusion Models #Transformer #DiT #Relighting LoRA #Holistic Replication #Open-Source

2025년 9월 18일

[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

이 논문은 전통적인 카툰 제작 파이프라인의 핵심적인 병목 현상인 인비트위닝(inbetweening) 과 컬러라이제이션(colorization) 단계의 수동적인 노력과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Cartoon Generation #Video Diffusion Models #DiT #Post-Keyframing #Low-Rank Adaptation #Sparse Control #Generative AI #Animation

2025년 8월 15일