[논문리뷰] AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents본 연구는 GPU 커널 최적화 작업이 딥러닝 시스템의 효율성에 핵심적임에도 불구하고, 기존 벤치마크들이 이를 충분히 포괄하지 못한다는 문제 의식에서 출발합니다.#Review#GPU Kernel Optimization#AI Coding Agents#Generalization#Performance Benchmarking#Triton#HIP#LLM Evaluation2026년 5월 18일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 RMSNorm 최적화 - Triton에서 aiter 커널로 전환SGLang에서 ROCm 환경의 RMSNorm 성능을 aiter 커널로 교체하여 30% 이상 개선했습니다.#SGLang#ROCm#RMSNorm#aiter#성능 최적화#HIP#GPU 프로그래밍2026년 5월 8일댓글 수 로딩 중
[triton] 컴파일된 커널 모듈 명시적 unload 지원Triton 런타임에서 컴파일된 커널 모듈을 명시적으로 unload할 수 있도록 __del__ 메서드와 unload_module 드라이버 함수를 추가한 PR을 분석합니다.#Triton#Runtime#Memory Management#CUDA#HIP2026년 2월 17일댓글 수 로딩 중
[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.#Triton#CUDA#HIP#Runtime#Performance2026년 1월 21일댓글 수 로딩 중