[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.#Triton#Kernel#SwiGLU#PTX#Optimization2026년 1월 8일댓글 수 로딩 중
[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백#Triton#Kernel#Numerical Stability#Revert#SwiGLU2025년 12월 4일댓글 수 로딩 중