#Kernel

4개의 포스트

[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선

vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.

#vLLM #CUDA #Triton #Kernel #Bugfix #Deep Learning #Optimization

2026년 4월 30일

[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선

Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.

#Triton #Kernel #SwiGLU #PTX #Optimization

2026년 1월 8일

[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선

exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백

#Triton #Kernel #Numerical Stability #Revert #SwiGLU

2025년 12월 4일

[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상

Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.

#Triton #GPU #Kernel #Refactoring #MatrixMultiplication

2025년 11월 23일