[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가
PR 링크: andimarafioti/faster-qwen3-tts#6 상태: Merged | 변경: +5 / -1
들어가며
NVIDIA Jetson Thor는 차세대 AI 로봇/자율주행용 모듈이다. faster-qwen3-tts의 첫 Jetson Thor 벤치마크 결과를 README와 BLOG.md에 추가한다.
핵심 코드 분석
벤치마크 테이블 추가
### 0.6B Model
| GPU | Baseline RTF | CUDA Graphs RTF | CUDA Graphs TTFA | Speedup |
|---|---|---|---|---|
| Jetson Thor | 0.803 | 1.53 | 168ms | 1.9x / 5.1x |
### 1.7B Model
| Jetson Thor | 0.772 | 1.24 | 198ms | 1.6x / 4.6x |
주목할 점: Jetson Thor의 baseline RTF(0.803)는 Jetson AGX Orin(0.175)보다 4.6배 빠르다. CUDA graph 적용 후에도 1.53으로 real-time을 달성한다.
참고로 이 수치는 이후 PR #7에서 streaming TTFA 기반으로 수정된다(168ms → 505ms).
왜 이게 좋은가
- Edge AI 커버리지: Jetson Thor는 로봇/자율주행 TTS의 핵심 타겟 플랫폼이다.
- Baseline 대비 개선 확인: Thor의 높은 baseline(0.8 RTF) 대비 약 2배 개선으로, CUDA graph의 효과가 CPU가 빠른 플랫폼에서도 유효함을 보여준다.
정리
5줄의 문서 업데이트지만, 새로운 하드웨어 플랫폼의 벤치마크 결과는 프로젝트의 범용성을 증명하는 중요한 데이터 포인트다.
참고 자료
이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석과 해석에서 오류가 있을 수 있으니, 정확한 내용은 원본 PR을 참고해주세요.
관련 포스트
PR Analysis 의 다른글
- 이전글 [triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원
- 현재글 : [faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가
- 다음글 [triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화
댓글