[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.#sglang#ASR#Speech Recognition#Whisper#Transcription2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language ModelsYiran Chen이 arXiv에 게시한 'MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Safety Evaluation#Red Teaming#Adversarial Attacks#Modality Switching#LLM Alignment#Compliance#ASR2026년 3월 4일댓글 수 로딩 중
[faster-qwen3-tts] nano-parakeet으로 참조 오디오 자동 전사 기능 추가데모 UI에서 참조 오디오 업로드 시 nano-parakeet ASR 모델로 텍스트를 자동 전사하여 UX를 개선한다#faster-qwen3-tts#TTS#ASR#Demo2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Qwen3-ASR Technical ReportarXiv에 게시된 'Qwen3-ASR Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#ASR#Language Identification#Forced Alignment#Large Audio-Language Models#Multilingual Speech Recognition#Streaming Inference#Qwen3-Omni2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech RecognitionShang-Tse Chen이 arXiv에 게시한 'Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition' 논문에 대한 자세한 리뷰입니다.#Review#ASR#Pseudo-labeling#Domain Adaptation#Task Arithmetic#Correction Vector#Accent Adaptation#Speaker Clustering#Model Editing2025년 10월 13일댓글 수 로딩 중
[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition TransformersKarun Kumar이 arXiv에 게시한 'WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers' 논문에 대한 자세한 리뷰입니다.#Review#ASR#Domain Adaptation#Text-Only Training#Transformer#Variational Autoencoder#Deep Supervision#Whisper#Encoder-Decoder Models2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASRAviv Shamsian이 arXiv에 게시한 'Beyond Transcription: Mechanistic Interpretability in ASR' 논문에 대한 자세한 리뷰입니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and SentencesMatvey Skripkin이 arXiv에 게시한 'Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences' 논문에 대한 자세한 리뷰입니다.#Review#Speech-to-LaTeX#ASR#Language Models#Multimodal AI#Dataset Creation#Mathematical Expression Recognition#LaTeX Generation2025년 8월 12일댓글 수 로딩 중