#MMDiT

3개의 포스트

[논문리뷰] Native Audio-Visual Alignment for Generation

본 논문은 오디오-비디오 조인트 생성 모델에서 발생하는 동기화 성능 저하와 모달리티 간 정보 결합 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Native Alignment #MMDiT #Timbre-in-Context Conditioning #Condition-Factorized Guidance

2026년 5월 28일

[논문리뷰] OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Proprietary Systems인 Seedance-2.0 과 같은 모델들은 Omni-capable Video Generation 분야에서 놀라운 성공을 거두었지만, Open-source 대안들은 그에 비해 상당히 뒤쳐져 있습니다.

#Review #Unified Video Generation #Multimodal Composition #Reasoning-Augmented #IntelligentVBench #MLLM #MMDiT #DeepStacking #Free-form Inputs

2026년 3월 25일

[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation

본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.

#Review #Interactive Video Generation #Humanoid Synthesis #Real-time #Streaming Diffusion #MMDiT #Temporal Consistency #Multimodal Control #Low Latency

2026년 1월 15일