[논문리뷰] StepAudio 2.5 Technical Report본 논문은 ASR, TTS, 실시간 음성 대화와 같은 서로 다른 음성 작업이 공통적인 표현 공간(Representational Space)을 공유함에도 불구하고, 기존 통합 모델들이 개별 특화 시스템 대비 성능 차이를 보이는 문제를 해결하고자 합니다.#Review#Audio-Language Foundation#ASR#TTS#Realtime Interaction#RLHF#Multi-token Decoding#Operational Regimes2026년 5월 24일댓글 수 로딩 중
[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.#sglang#ASR#Speech Recognition#Whisper#Transcription2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.#Review#Multimodal LLMs#Safety Evaluation#Red Teaming#Adversarial Attacks#Modality Switching#LLM Alignment#Compliance#ASR2026년 3월 4일댓글 수 로딩 중
[faster-qwen3-tts] nano-parakeet으로 참조 오디오 자동 전사 기능 추가데모 UI에서 참조 오디오 업로드 시 nano-parakeet ASR 모델로 텍스트를 자동 전사하여 UX를 개선한다#faster-qwen3-tts#TTS#ASR#Demo2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Qwen3-ASR Technical Report본 논문은 Qwen3-ASR 모델 제품군을 소개하며, 기존 ASR 모델의 한계를 넘어선 최첨단 성능과 효율성을 제공하는 것을 목표로 합니다.#Review#ASR#Language Identification#Forced Alignment#Large Audio-Language Models#Multilingual Speech Recognition#Streaming Inference#Qwen3-Omni2026년 1월 29일댓글 수 로딩 중
[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers본 논문은 Whisper 와 같은 사전 훈련된 최신 ASR(Automatic Speech Recognition) 모델이 미지의 도메인 어휘와 발화를 처리할 때 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#ASR#Domain Adaptation#Text-Only Training#Transformer#Variational Autoencoder#Deep Supervision#Whisper#Encoder-Decoder Models2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences본 연구는 음성으로 표현된 수학 방정식과 문장을 LaTeX 형식으로 변환하는 도전적인 문제를 해결하고자 합니다. 기존 연구의 한계점(예: 이중 ASR 전사 의존성, 고립된 방정식에 대한 초점, 제한적인 데이터셋, 다국어 지원 부족)을 극복하고, 확장 가능하고 실제 적용 가능한 솔루션을 제공하는 것을 목표로 합니다.#Review#Speech-to-LaTeX#ASR#Language Models#Multimodal AI#Dataset Creation#Mathematical Expression Recognition#LaTeX Generation2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition본 논문은 ASR 도메인 적응 시 타겟 도메인의 실제 레이블(ground truth)이 없는 상황에서 pseudo-labeling 으로 인해 발생하는 체계적인 오류 패턴을 완화하는 것을 목표로 합니다.#Review#ASR#Pseudo-labeling#Domain Adaptation#Task Arithmetic#Correction Vector#Accent Adaptation#Speaker Clustering#Model Editing2025년 10월 13일댓글 수 로딩 중