[논문리뷰] Native Audio-Visual Alignment for Generation본 논문은 오디오-비디오 조인트 생성 모델에서 발생하는 동기화 성능 저하와 모달리티 간 정보 결합 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Generation#Native Alignment#MMDiT#Timbre-in-Context Conditioning#Condition-Factorized Guidance2026년 5월 28일댓글 수 로딩 중
[논문리뷰] LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV본 논문은 기존 Audio-Visual Generation 벤치마크가 Minute-Scale Content의 평가 요구사항을 충족하지 못하는 문제를 해결하고자 한다.#Review#Audio-Visual Generation#Long Video Generation#Evaluation#Benchmark#T2AV#I2AV#V2AV#MLLM-assisted assessment2026년 5월 26일댓글 수 로딩 중
[논문리뷰] Woosh: A Sound Effects Foundation Model본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.#Review#Foundation Model#Sound Effects#Latent Diffusion Model#Flow Matching#Audio-Visual Generation#Distillation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AVControl: Efficient Framework for Training Audio-Visual Controls비디오 및 오디오 생성 과정의 정교한 제어는 실제 창의적인 애플리케이션에 필수적이다. 그러나 depth, pose, camera trajectories, audio transformations 등 다양한 modalities에 걸친 control의 범위는 매우 광대하다.#Review#Audio-Visual Generation#Video Control#LoRA#Parallel Canvas Conditioning#Diffusion Models#Modularity#Efficiency2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Generation#Cross-Modal Synchronization#Diffusion Models#Cross-Task Synergy#Classifier-Free Guidance#Multimodal AI#Generative AI2025년 11월 26일댓글 수 로딩 중