#Narrative Reasoning

1개의 포스트

[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models

본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.

#Review #Text-to-Audio #Long-Form Audio Generation #Large Language Models #Narrative Reasoning #Diffusion Models #Multimodal AI #Progressive Training

2025년 8월 28일