[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.#vLLM#CUDA#Triton#Kernel#Bugfix#Deep Learning#Optimization2026년 4월 30일댓글 수 로딩 중
[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.#Triton#Kernel#SwiGLU#PTX#Optimization2026년 1월 8일댓글 수 로딩 중
[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백#Triton#Kernel#Numerical Stability#Revert#SwiGLU2025년 12월 4일댓글 수 로딩 중
[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.#Triton#GPU#Kernel#Refactoring#MatrixMultiplication2025년 11월 23일댓글 수 로딩 중