[논문리뷰] Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language ModelsAI 패러다임이 Text-based LLMs에서 Speech Language Models (SLMs)로 전환됨에 따라, 실시간의 자연스러운 Human-Computer Interaction을 지원하는 Full-duplex system 에 대한 수요가 증가하고 있습니다.#Review#Full-duplex Speech#Data Pre-processing#Speaker Diarization#Overlap Separation#ASR Ensemble#Speech Language Models2026년 3월 29일댓글 수 로딩 중
[논문리뷰] VIBEVOICE-ASR Technical Report본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.#Review#Automatic Speech Recognition#Speaker Diarization#Long-form Audio#Large Language Models#End-to-end Speech Processing#Multilingual#Context-aware ASR2026년 1월 26일댓글 수 로딩 중
[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.#Review#End-to-End ASR#Speaker Diarization#Child Speech Processing#Whisper Model#Serialized Output Training#Multi-task Learning#State-Machine Decoding2026년 1월 26일댓글 수 로딩 중