[논문리뷰] Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders본 논문은 Whisper와 같은 대규모 신경망 기반 ASR 모델이 비음성 오디오를 입력받았을 때 발생하는 환각 문제를 해결하는 것을 목적으로 한다. 기존의 heuristic 필터링 방식은 높은 신뢰도로 환각을 생성하는 사례를 효과적으로 걸러내지 못하는 한계를 지닌다.#Review#Automatic Speech Recognition#Hallucinations#Whisper#Sparse AutoEncoder#Activation Steering2026년 6월 8일댓글 수 로딩 중
[논문리뷰] VIBEVOICE-ASR Technical Report본 논문은 기존 단문 음성 인식의 발전에도 불구하고 컨텍스트 단편화 및 다화자 복잡성 으로 인해 장문 오디오(예: 회의, 팟캐스트) 이해가 어려운 문제를 해결하고자 합니다.#Review#Automatic Speech Recognition#Speaker Diarization#Long-form Audio#Large Language Models#End-to-end Speech Processing#Multilingual#Context-aware ASR2026년 1월 26일댓글 수 로딩 중
[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.#Review#Speech Tokenizer#Noise Robustness#Semantic Tokens#SpeechLLMs#Voting-LFQ#Consensus Training#Automatic Speech Recognition#Speech Synthesis2025년 9월 30일댓글 수 로딩 중