#Streaming ASR

2개의 포스트

[논문리뷰] Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

본 논문은 높은 지연 시간 때문에 스트리밍 애플리케이션에 비실용적인 대규모 오프라인 ASR 모델(예: Whisper)의 한계를 극복하고, 저지연 태국어 자동 음성 인식(ASR)을 위한 효율적인 스트리밍 솔루션을 개발하는 것을 목표로 합니다.

#Review #Thai ASR #Real-time Speech Recognition #FastConformer-Transducer #Low-latency #Text Normalization #Dialect Adaptation #Data Curation #Streaming ASR

2026년 1월 21일

[논문리뷰] SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

현재 대규모 언어 모델(LLMs) 및 음성 언어 모델(SLMs)이 사용자의 발화가 끝난 후에야 추론 및 행동을 시작하여 발생하는 높은 응답 지연 시간 문제를 해결하는 것이 목표입니다.

#Review #Spoken Language Models #Real-time Interaction #Thinking While Listening #Chain-of-Thought #Interruption #Tool Calling #Streaming ASR

2025년 10월 9일