#Speaker Diarization

3개의 포스트

[논문리뷰] Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

AI 패러다임이 Text-based LLMs에서 Speech Language Models (SLMs)로 전환됨에 따라, 실시간의 자연스러운 Human-Computer Interaction을 지원하는 Full-duplex system 에 대한 수요가 증가하고 있습니다.

#Review #Full-duplex Speech #Data Pre-processing #Speaker Diarization #Overlap Separation #ASR Ensemble #Speech Language Models

2026년 3월 29일

[논문리뷰] VIBEVOICE-ASR Technical Report

본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.

#Review #Automatic Speech Recognition #Speaker Diarization #Long-form Audio #Large Language Models #End-to-end Speech Processing #Multilingual #Context-aware ASR

2026년 1월 26일

[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.

#Review #End-to-End ASR #Speaker Diarization #Child Speech Processing #Whisper Model #Serialized Output Training #Multi-task Learning #State-Machine Decoding

2026년 1월 26일