[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.#Triton#AMD#GPU#Optimization#GEMM#HPC2026년 4월 18일댓글 수 로딩 중
[논문리뷰] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM AgentsMulti-turn LLM Agents는 복잡하고 인터랙티브한 작업을 해결하는 데 점차 중요해지고 있으며, Reinforcement Learning (RL)은 long-horizon behavior를 개선하는 데 핵심적인 역할을 합니다.#Review#Multi-turn LLM Agents#Reinforcement Learning#Rollout-as-a-Service#Training-Rollout Decoupling#Sandbox Environments#HPC#Token-in/Token-out#Scalability2026년 3월 19일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.#Triton#Blackwell#GPU#MatMul#HPC2026년 2월 24일댓글 수 로딩 중
[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.#Triton#GPU#Optimization#HPC#Matmul2026년 1월 22일댓글 수 로딩 중
[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.#Triton#MXFP#GPU#Optimization#HPC2025년 11월 6일댓글 수 로딩 중