[논문리뷰] Native Audio-Visual Alignment for Generation본 논문은 오디오-비디오 조인트 생성 모델에서 발생하는 동기화 성능 저하와 모달리티 간 정보 결합 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Generation#Native Alignment#MMDiT#Timbre-in-Context Conditioning#Condition-Factorized Guidance2026년 5월 28일댓글 수 로딩 중
[논문리뷰] OmniWeaving: Towards Unified Video Generation with Free-form Composition and ReasoningProprietary Systems인 Seedance-2.0 과 같은 모델들은 Omni-capable Video Generation 분야에서 놀라운 성공을 거두었지만, Open-source 대안들은 그에 비해 상당히 뒤쳐져 있습니다.#Review#Unified Video Generation#Multimodal Composition#Reasoning-Augmented#IntelligentVBench#MLLM#MMDiT#DeepStacking#Free-form Inputs2026년 3월 25일댓글 수 로딩 중
[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.#Review#Interactive Video Generation#Humanoid Synthesis#Real-time#Streaming Diffusion#MMDiT#Temporal Consistency#Multimodal Control#Low Latency2026년 1월 15일댓글 수 로딩 중