[논문리뷰] MOSS-TTS Technical ReportText-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.#Review#Speech Generation#Foundation Model#Audio Tokenizer#Autoregressive Modeling#Voice Cloning#Duration Control#Multilingual TTS2026년 3월 19일댓글 수 로딩 중
[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 생성을 위해 외부 전문가 구성 요소(예: 확산 디코더)에 의존하는 한계를 극복하고자 합니다.#Review#Autoregressive Models#Multimodal AI#Any-to-Any Generation#Unified Model#Speech Generation#Image Generation#Transformer Decoder#Real-time Streaming2026년 1월 26일댓글 수 로딩 중
[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.#Review#Spoken Language Models#Evaluation Metrics#Perplexity#Mean Opinion Score#Likelihood-based Evaluation#Model-as-a-Judge#Acoustic Consistency#Speech Generation2026년 1월 12일댓글 수 로딩 중
[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.#Review#Voice Style Adaptation#Spoken Language Models#Benchmark#LALM-as-a-Judge#Speech Generation#Multilingual#Evaluation Framework2025년 9월 15일댓글 수 로딩 중
[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE본 연구는 음성 및 음악 생성의 통합이라는 오랜 과제를 해결하는 것을 목표로 합니다.#Review#Mixture of Experts#Speech Generation#Music Generation#Multimodal AI#Dynamic Routing#Training Curriculum#Data Imbalance#Audio Synthesis2025년 10월 16일댓글 수 로딩 중
[논문리뷰] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue본 논문은 기존 MLLM의 단일 턴 상호작용 및 제한적인 장기 기억 능력 한계를 극복하고자 합니다.#Review#Omni-modal LLM#Audio-Visual Dialogue#Multi-turn Interaction#Speech Generation#Long-term Memory#Multimodal Understanding#End-to-end Training2025년 10월 16일댓글 수 로딩 중