[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성
PR 링크: andimarafioti/faster-qwen3-tts#7 상태: Merged | 변경: +39 / -25
들어가며
이 PR은 세 가지를 동시에 개선한다: (1) Jetson Thor 벤치마크 결과 추가 및 기존 Thor TTFA 수치 수정, (2) TTFA 측정을 실제 streaming 기반으로 전환, (3) 블로그 포스트(BLOG.md)의 전반적인 수치와 서술 업데이트.
핵심 코드 분석
TTFA 측정 방식 변경
Before:
# max_new_tokens=1로 측정 (비현실적)
audio_list, sr = model.generate_voice_clone(
text=text[:30], max_new_tokens=1,
)
ttfa_ms = (time.perf_counter() - t0) * 1000
After:
# 실제 streaming으로 첫 청크까지 시간 측정
for chunk_size in [4, 8, 12]:
gen = model.generate_voice_clone_streaming(
text=text, chunk_size=chunk_size, ...
)
first_chunk, sr, timing = next(gen)
ttfa_ms = (time.perf_counter() - t0) * 1000
gen.close()
Jetson Thor TTFA 수정
Jetson Thor의 기존 TTFA(168ms, 198ms)가 비정상적으로 낮았다. streaming 기반 측정으로 수정:
| GPU | Before TTFA | After TTFA |
|---|---|---|
| Jetson Thor (0.6B) | 168ms | 505ms |
| Jetson Thor (1.7B) | 198ms | 595ms |
기존 수치는 max_new_tokens=1로 측정한 것이어서 실제 사용 시나리오와 괴리가 있었다.
블로그 chunk size 벤치마크 확장
| chunk_size | TTFA | RTF |
|------------|-------|-------|
| 1 | 240ms | 0.750 | <!-- 새로 추가 -->
| 2 | 266ms | 1.042 | <!-- 새로 추가 -->
| 4 | 362ms | 1.251 |
| 8 | 556ms | 1.384 |
| 12 | 753ms | 1.449 |
왜 이게 좋은가
- 정직한 벤치마크: TTFA를 실제 streaming 시나리오로 측정하여 사용자 기대치를 정확히 설정한다.
- chunk_size 가이드: chunk_size=1부터 12까지의 trade-off를 한눈에 볼 수 있어 최적 설정 선택이 쉽다.
- Jetson Thor 커버리지: NVIDIA의 차세대 edge GPU인 Thor의 실제 성능 데이터를 제공한다.
정리
벤치마크의 신뢰성은 측정 방법의 정확성에 달려있다. max_new_tokens=1 같은 인위적 측정을 실제 streaming 기반으로 전환한 것은 프로젝트 신뢰도를 크게 높이는 변경이다.
참고 자료
이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석과 해석에서 오류가 있을 수 있으니, 정확한 내용은 원본 PR을 참고해주세요.
관련 포스트
PR Analysis 의 다른글
- 이전글 [triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화
- 현재글 : [faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성
- 다음글 [Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화
댓글