[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.#Triton#Kernel#SwiGLU#PTX#Optimization2026년 1월 8일댓글 수 로딩 중
[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백#Triton#Kernel#Numerical Stability#Revert#SwiGLU2025년 12월 4일댓글 수 로딩 중
[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.#Triton#GPU#Kernel#Refactoring#MatrixMultiplication2025년 11월 23일댓글 수 로딩 중