[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.#Review#Text-to-Audio#Long-Form Audio Generation#Large Language Models#Narrative Reasoning#Diffusion Models#Multimodal AI#Progressive Training2025년 8월 28일댓글 수 로딩 중
[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.#Review#Music Restoration#Audio Mastering#Generative Models#Flow Matching#Text-to-Audio#Audio Quality Enhancement#Multi-task Learning#Dataset Creation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video본 논문은 사전 학습된 텍스트-오디오(T2A) 모델 을 동결시킨 상태에서, 비디오 가이드 Foley 음향 합성 을 위한 경량의 접근 방식을 제안합니다.#Review#Text-to-Audio#Video-to-Audio#Foley Synthesis#Diffusion Models#Cross-Attention#Frozen Backbones#Video Embeddings#Rotary Position Embeddings2025년 10월 27일댓글 수 로딩 중