[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.#Review#Spoken Language Models#Evaluation Metrics#Perplexity#Mean Opinion Score#Likelihood-based Evaluation#Model-as-a-Judge#Acoustic Consistency#Speech Generation2026년 1월 12일댓글 수 로딩 중
[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.#Review#Voice Style Adaptation#Spoken Language Models#Benchmark#LALM-as-a-Judge#Speech Generation#Multilingual#Evaluation Framework2025년 9월 15일댓글 수 로딩 중
[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.#Review#Spoken Language Models#Real-time Interaction#Thinking While Listening#Chain-of-Thought#Interruption#Tool Calling#Streaming ASR2025년 10월 9일댓글 수 로딩 중