[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가

2026년 2월 20일수정: 2026년 2월 20일

PR 링크: andimarafioti/faster-qwen3-tts#6 상태: Merged | 변경: +5 / -1

들어가며

NVIDIA Jetson Thor는 차세대 AI 로봇/자율주행용 모듈이다. faster-qwen3-tts의 첫 Jetson Thor 벤치마크 결과를 README와 BLOG.md에 추가한다.

핵심 코드 분석

벤치마크 테이블 추가

### 0.6B Model
| GPU | Baseline RTF | CUDA Graphs RTF | CUDA Graphs TTFA | Speedup |
|---|---|---|---|---|
| Jetson Thor | 0.803 | 1.53 | 168ms | 1.9x / 5.1x |

### 1.7B Model
| Jetson Thor | 0.772 | 1.24 | 198ms | 1.6x / 4.6x |

주목할 점: Jetson Thor의 baseline RTF(0.803)는 Jetson AGX Orin(0.175)보다 4.6배 빠르다. CUDA graph 적용 후에도 1.53으로 real-time을 달성한다.

참고로 이 수치는 이후 PR #7에서 streaming TTFA 기반으로 수정된다(168ms → 505ms).

왜 이게 좋은가

Edge AI 커버리지: Jetson Thor는 로봇/자율주행 TTS의 핵심 타겟 플랫폼이다.
Baseline 대비 개선 확인: Thor의 높은 baseline(0.8 RTF) 대비 약 2배 개선으로, CUDA graph의 효과가 CPU가 빠른 플랫폼에서도 유효함을 보여준다.

정리

5줄의 문서 업데이트지만, 새로운 하드웨어 플랫폼의 벤치마크 결과는 프로젝트의 범용성을 증명하는 중요한 데이터 포인트다.

참고 자료

이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석과 해석에서 오류가 있을 수 있으니, 정확한 내용은 원본 PR을 참고해주세요.

PR Analysis 의 다른글

이전글 [triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원
현재글 : [faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가
다음글 [triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화