[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.#PyTorch#torch.compile#GPU Optimization#LLM Inference#Kernel Fusion#sglang2026년 5월 23일댓글 수 로딩 중
[triton] Triton 커널 최적화: Mask Sorting을 통한 Reduction 연산 가속화Triton의 reduction 연산에서 불필요한 루프 반복을 줄이기 위해 마스크를 기준으로 행을 정렬하고 루프 바운드를 최적화하는 기법을 분석합니다.#Triton#GPU Optimization#Deep Learning#CUDA#Kernel Programming2026년 5월 15일댓글 수 로딩 중
[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.#sglang#CUDA Graphs#Kernel Launch#GPU Optimization2026년 4월 11일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.#Review#CUDA Kernel Generation#Agentic Reinforcement Learning#Large Language Models (LLMs)#GPU Optimization#Performance Tuning#Deep Learning Infrastructure#Program Synthesis2026년 3월 1일댓글 수 로딩 중
[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.#Review#Foundation Model#Agentic AI#Reinforcement Learning#Sparse Attention#Software Engineering#Long-Context Models#GPU Optimization2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.#Review#Large Language Models#Kernel Generation#GPU Optimization#AI Agents#Code Synthesis#Performance Engineering#Hardware Acceleration2026년 1월 22일댓글 수 로딩 중
[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다#Triton#AMD#Gluon#L2 Cache#Prefetch#GPU Optimization2026년 1월 8일댓글 수 로딩 중
[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.#Triton#AMD#Warp Pipeline#Gluon#LLVM#GPU Optimization2025년 12월 11일댓글 수 로딩 중
[논문리뷰] SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs대규모 언어 모델(LLMs)의 배포에 있어 저비트 양자화(low-bit quantization) 와 희소화(sparsification) 기술이 정확도와 효율성 사이에서 균형을 맞추기 어려운 문제를 해결하는 것이 목표입니다.#Review#LLM Quantization#Sparsification#Hardware Acceleration#Mixed-Precision#Post-Training Quantization#Data Format#GPU Optimization#AI Accelerator2025년 12월 7일댓글 수 로딩 중
[SGLang] MoE 모델을 위한 Single Batch Overlap 기법Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다#SGLang#MoE#GPU Optimization#Inference2025년 12월 3일댓글 수 로딩 중
[Triton] Gluon에 coalesced layout 추가 — 메모리 접근 효율 최적화Gluon DSL에 coalesced layout을 도입하여 글로벌 메모리 접근의 coalescing을 자동으로 보장한다#Triton#Gluon#Memory Coalescing#Layout#GPU Optimization2025년 11월 13일댓글 수 로딩 중
[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation본 논문은 확산 모델 기반 비디오 생성 과정에서 발생하는 높은 GPU 메모리 사용량 과 긴 추론 시간 문제를 해결하고자 합니다. 특히 기존 캐싱 기반 가속화 방법이 야기하는 메모리 급증 현상 을 극복하고, 모델 훈련 없이 메모리 효율적인 가속화를 달성하여 실제 환경 배포의 제약을 완화하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Models#Memory Efficiency#Inference Acceleration#Training-Free#Cache Mechanism#GPU Optimization2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.#Review#Long-Context LLM#Hybrid Attention#Linear Attention#Mixture-of-Experts#FP8 Training#GPU Optimization#Training-Inference Alignment#Reinforcement Learning2025년 10월 23일댓글 수 로딩 중