본문으로 건너뛰기

[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성

PR 링크: andimarafioti/faster-qwen3-tts#7 상태: Merged | 변경: +39 / -25

들어가며

이 PR은 세 가지를 동시에 개선한다: (1) Jetson Thor 벤치마크 결과 추가 및 기존 Thor TTFA 수치 수정, (2) TTFA 측정을 실제 streaming 기반으로 전환, (3) 블로그 포스트(BLOG.md)의 전반적인 수치와 서술 업데이트.

핵심 코드 분석

TTFA 측정 방식 변경

Before:

# max_new_tokens=1로 측정 (비현실적)
audio_list, sr = model.generate_voice_clone(
    text=text[:30], max_new_tokens=1,
)
ttfa_ms = (time.perf_counter() - t0) * 1000

After:

# 실제 streaming으로 첫 청크까지 시간 측정
for chunk_size in [4, 8, 12]:
    gen = model.generate_voice_clone_streaming(
        text=text, chunk_size=chunk_size, ...
    )
    first_chunk, sr, timing = next(gen)
    ttfa_ms = (time.perf_counter() - t0) * 1000
    gen.close()

Jetson Thor TTFA 수정

Jetson Thor의 기존 TTFA(168ms, 198ms)가 비정상적으로 낮았다. streaming 기반 측정으로 수정:

GPU Before TTFA After TTFA
Jetson Thor (0.6B) 168ms 505ms
Jetson Thor (1.7B) 198ms 595ms

기존 수치는 max_new_tokens=1로 측정한 것이어서 실제 사용 시나리오와 괴리가 있었다.

블로그 chunk size 벤치마크 확장

| chunk_size | TTFA  | RTF   |
|------------|-------|-------|
| 1          | 240ms | 0.750 |  <!-- 새로 추가 -->
| 2          | 266ms | 1.042 |  <!-- 새로 추가 -->
| 4          | 362ms | 1.251 |
| 8          | 556ms | 1.384 |
| 12         | 753ms | 1.449 |

왜 이게 좋은가

  1. 정직한 벤치마크: TTFA를 실제 streaming 시나리오로 측정하여 사용자 기대치를 정확히 설정한다.
  2. chunk_size 가이드: chunk_size=1부터 12까지의 trade-off를 한눈에 볼 수 있어 최적 설정 선택이 쉽다.
  3. Jetson Thor 커버리지: NVIDIA의 차세대 edge GPU인 Thor의 실제 성능 데이터를 제공한다.

정리

벤치마크의 신뢰성은 측정 방법의 정확성에 달려있다. max_new_tokens=1 같은 인위적 측정을 실제 streaming 기반으로 전환한 것은 프로젝트 신뢰도를 크게 높이는 변경이다.

참고 자료


이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석과 해석에서 오류가 있을 수 있으니, 정확한 내용은 원본 PR을 참고해주세요.

댓글

관련 포스트

PR Analysis 의 다른글