[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성

2026년 2월 20일수정: 2026년 2월 20일

PR 링크: andimarafioti/faster-qwen3-tts#7 상태: Merged | 변경: +39 / -25

들어가며

이 PR은 세 가지를 동시에 개선한다: (1) Jetson Thor 벤치마크 결과 추가 및 기존 Thor TTFA 수치 수정, (2) TTFA 측정을 실제 streaming 기반으로 전환, (3) 블로그 포스트(BLOG.md)의 전반적인 수치와 서술 업데이트.

핵심 코드 분석

TTFA 측정 방식 변경

Before:

# max_new_tokens=1로 측정 (비현실적)
audio_list, sr = model.generate_voice_clone(
    text=text[:30], max_new_tokens=1,
)
ttfa_ms = (time.perf_counter() - t0) * 1000

After:

# 실제 streaming으로 첫 청크까지 시간 측정
for chunk_size in [4, 8, 12]:
    gen = model.generate_voice_clone_streaming(
        text=text, chunk_size=chunk_size, ...
    )
    first_chunk, sr, timing = next(gen)
    ttfa_ms = (time.perf_counter() - t0) * 1000
    gen.close()

Jetson Thor TTFA 수정

Jetson Thor의 기존 TTFA(168ms, 198ms)가 비정상적으로 낮았다. streaming 기반 측정으로 수정:

GPU	Before TTFA	After TTFA
Jetson Thor (0.6B)	168ms	505ms
Jetson Thor (1.7B)	198ms	595ms

기존 수치는 max_new_tokens=1로 측정한 것이어서 실제 사용 시나리오와 괴리가 있었다.

블로그 chunk size 벤치마크 확장

| chunk_size | TTFA  | RTF   |
|------------|-------|-------|
| 1          | 240ms | 0.750 |  <!-- 새로 추가 -->
| 2          | 266ms | 1.042 |  <!-- 새로 추가 -->
| 4          | 362ms | 1.251 |
| 8          | 556ms | 1.384 |
| 12         | 753ms | 1.449 |