#TTS

16개의 포스트

[논문리뷰] StepAudio 2.5 Technical Report

본 논문은 ASR, TTS, 실시간 음성 대화와 같은 서로 다른 음성 작업이 공통적인 표현 공간(Representational Space)을 공유함에도 불구하고, 기존 통합 모델들이 개별 특화 시스템 대비 성능 차이를 보이는 문제를 해결하고자 합니다.

#Review #Audio-Language Foundation #ASR #TTS #Realtime Interaction #RLHF #Multi-token Decoding #Operational Regimes

2026년 5월 24일

[Open WebUI] TTS 문장 파싱을 showCallOverlay 가드로 감싸 불필요한 O(n^2) 연산 제거

음성 통화 오버레이가 비활성일 때 매 토큰마다 실행되던 정규식 파싱을 완전히 건너뛰도록 가드를 추가한 최적화 분석.

#Open WebUI #Svelte #JavaScript #Performance #TTS #Regex

2026년 3월 6일

[faster-qwen3-tts] SDPA 전환으로 BF16 StaticCache hidden-state 발산 수정

eager attention에서 SDPA로 전환하여 StaticCache 패딩 길이에 따른 BF16 hidden-state 발산 문제를 해결한다

#faster-qwen3-tts #TTS #CUDA Graphs #Attention

2026년 3월 4일

[faster-qwen3-tts] HF Space에 1000자 텍스트 제한 추가로 CUDA static cache overflow 방지

StaticCache의 max_seq_len=2048을 초과하는 입력을 차단하기 위해 텍스트와 오디오 크기 제한을 서버에 추가한다

#faster-qwen3-tts #TTS #Security #Input Validation

2026년 3월 3일

[faster-qwen3-tts] Windows 네이티브 셋업 및 벤치마크 스크립트 추가

setup_windows.bat과 benchmark_windows.bat을 추가하여 WSL 없이 Windows에서 직접 실행할 수 있도록 한다

#faster-qwen3-tts #TTS #Windows #DevEx

2026년 2월 26일

[faster-qwen3-tts] 생성 요청 직렬화 및 모델 캐싱 도입

asyncio Lock으로 동시 생성을 방지하고, 로드된 모델을 캐싱하여 모델 전환 시 재로딩을 방지한다

#faster-qwen3-tts #TTS #Concurrency #Caching

2026년 2월 26일

[faster-qwen3-tts] nano-parakeet으로 참조 오디오 자동 전사 기능 추가

데모 UI에서 참조 오디오 업로드 시 nano-parakeet ASR 모델로 텍스트를 자동 전사하여 UX를 개선한다

#faster-qwen3-tts #TTS #ASR #Demo

2026년 2월 24일

[faster-qwen3-tts] 모드 간 성능 동등성 검증 및 벤치마크 비교 문서화

VoiceClone, CustomVoice, ICL 모드가 CUDA graph 캡처 후 동일한 성능을 보이는지 검증하고 벤치마크를 문서화한다

#faster-qwen3-tts #TTS #Benchmark #Documentation

2026년 2월 21일

[faster-qwen3-tts] README 비스트리밍 RTF 수치 업데이트

Jetson AGX Orin의 non-streaming RTF을 1.36에서 1.57로 업데이트하여 최신 벤치마크를 반영한다

#faster-qwen3-tts #TTS #Documentation #Benchmark

2026년 2월 20일

[faster-qwen3-tts] CustomVoice/VoiceDesign 지원, CLI, PyPI 배포, 스트리밍 UX 개선

CustomVoice와 VoiceDesign 모드 지원을 추가하고, CLI 도구와 PyPI 배포를 구현하며 스트리밍 UX를 개선한다

#faster-qwen3-tts #TTS #CLI #CustomVoice

2026년 2월 20일

[faster-qwen3-tts] 패키지 리네이밍 및 코드 간소화

qwen3_tts_cuda_graphs에서 faster_qwen3_tts로 리네이밍하고 불필요한 코드를 정리한다

#faster-qwen3-tts #TTS #Refactoring #Naming

2026년 2월 20일

[faster-qwen3-tts] 공식 Qwen3-TTS 기반으로 포팅 및 벤치마크 대폭 향상

커뮤니티 streaming fork에서 공식 Qwen3-TTS 저장소로 기반을 전환하고, repetition penalty 벡터화로 RTF 5.56 달성

#faster-qwen3-tts #TTS #CUDA Graphs #Performance

2026년 2월 20일

[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성

Jetson Thor 결과를 추가하고, streaming TTFA 측정 방식을 개선하며 블로그 포스트의 수치를 업데이트한다

#faster-qwen3-tts #TTS #Benchmark #Jetson

2026년 2월 20일

[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가

NVIDIA Jetson Thor에서의 벤치마크 결과를 README와 블로그에 추가한다

#faster-qwen3-tts #TTS #Benchmark #Jetson Thor

2026년 2월 20일

[faster-qwen3-tts] CUDA Graphs 기반 Qwen3-TTS 래퍼를 설치 가능한 Python 패키지로 구조화

Qwen3-TTS CUDA Graphs 최적화 코드를 pip 설치 가능한 Python 패키지로 재구성하고, 스트리밍 생성 API와 벤치마크 스위트를 추가한 사례를 분석합니다.

#Qwen3-TTS #CUDA Graphs #Python Package #TTS #Streaming #PyTorch

2026년 2월 17일

[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS

경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.

#Review #TTS #Phonemization #G2P #Low Latency #Real-time #Service-Oriented Architecture #Context-Aware #Persian Language

2025년 12월 10일