PR Analysis

[sglang] SGLang: ROCm 환경에서 RMSNorm의 배치 불변성 확보를 통한 결정론적 추론 개선

SGLang이 ROCm 환경에서 RMSNorm의 배치 불변성 문제를 해결하여 결정론적 추론을 가능하게 한 PR 분석.

#SGLang #ROCm #RMSNorm #Batch Invariance #Deterministic Inference #LLM Optimization

2026년 7월 5일

[vllm] vLLM XPU 백엔드 최적화: W8A8 및 W8A16 FP8 Linear 커널 도입

vLLM의 XPU 백엔드에 W8A8 및 W8A16 FP8 Linear 커널을 추가하여 다양한 양자화 세분성을 지원하고 성능을 최적화했습니다.

#vLLM #XPU #FP8 #Quantization #LLM

2026년 7월 4일

[uv] uv, 휠 파일명 파싱 최적화: 중복 작업 제거와 성능 향상

uv가 휠 파일명 파싱 시 중복되는 패키지 이름 정규화 작업을 제거하여 성능을 개선한 PR을 분석합니다.

#uv #performance #optimization #python #wheel

2026년 7월 4일

[vllm] vLLM의 Dynamic Speculative Decoding을 위한 Full CUDA Graph 최적화

Dynamic Speculative Decoding(DSD)에서 MRv2와 Full CUDA Graph를 결합하여 추론 성능을 극대화하는 최적화 기법을 소개합니다.

#vLLM #CUDA Graph #Speculative Decoding #LLM #Performance Optimization

2026년 7월 4일

[uv] Interning을 통한 uv의 Simple API 파싱 최적화: 메모리와 속도 두 마리 토끼 잡기

중복되는 requires-python 명세서를 Interning하여 메모리 사용량을 10% 줄이고 파싱 속도를 개선한 uv의 최적화 기법을 살펴봅니다.

#Rust #Optimization #uv #Python #Interning #Performance

2026년 7월 4일

[flashinfer] FlashInfer의 새로운 TGV GEMM 백엔드: CuTeDSL을 활용한 Blackwell 최적화

FlashInfer에 Blackwell 아키텍처를 위한 고성능 TGV GEMM 백엔드가 추가되었습니다. CuTeDSL 기반의 2-CTA 모드로 성능을 극대화합니다.

#FlashInfer #GEMM #CUDA #Blackwell #CuTeDSL #GPU Optimization

2026년 7월 3일

[sglang] SGLang: performance_mode=speed에서 torch.compile 기본 활성화로 성능 최적화

SGLang의 'speed' 모드에서 torch.compile을 기본 활성화하여 성능을 극대화하는 PR 분석.

#SGLang #PyTorch #torch.compile #성능 최적화 #GPU #JIT 컴파일

2026년 7월 3일

[uv] uv의 성능 최적화: BTreeSet에서 Vec으로의 전환을 통한 site-packages 스캔 오버헤드 개선

uv의 site-packages 스캔 과정에서 BTreeSet 대신 Vec을 사용하여 메모리 할당 오버헤드를 줄이고 성능을 최적화한 사례를 분석합니다.

#uv #rust #performance #optimization #python

2026년 7월 3일

[vllm] [vLLM] Triton 커널 최적화로 Unlimited-OCR 성능 3.7배 끌어올리기: R-SWA의 효율적 구현

Unlimited-OCR의 R-SWA 마스크를 TritonAttention 백엔드에 직접 구현하여 FlexAttention 대비 최대 3.7배의 성능 향상을 달성한 과정을 분석합니다.

#vLLM #Triton #LLM Optimization #Attention #R-SWA #OCR

2026년 7월 3일

[sglang] Intel XPU를 위한 고성능 그래프 캡처 및 리플레이 지원 구현

SGLang에 Intel XPU 그래프 캡처 기능을 도입하여 커널 실행 오버헤드를 줄이고 추론 성능을 최적화했습니다.

#SGLang #XPU #LLM #Optimization #CUDA-Graph

2026년 7월 2일

[ultralytics] RT-DETR의 CoreML 추론 성능 최적화: ComputeUnit.ALL 전략 도입

RT-DETR 모델의 CoreML 추론 시 발생하는 FP16 정확도 저하와 속도 문제를 메타데이터 기반의 ComputeUnit.ALL 라우팅으로 해결했습니다.

#Ultralytics #CoreML #RT-DETR #Optimization #Apple Silicon

2026년 7월 2일

[triton] Triton 커널 최적화: 불필요한 텐서 메모리 할당 제거하기

Triton의 reduce_launch_metadata에서 발생하는 대규모 중간 텐서 생성 문제를 해결하여 메모리 효율성을 개선한 사례를 분석합니다.

#Triton #GPU #Optimization #MemoryManagement #DeepLearning

2026년 7월 2일

[axolotl] Axolotl: Long-Context 학습을 위한 Hidden State Offloading 최적화 (Non-Reentrant Checkpointing 지원)

Axolotl의 새로운 Hidden State Offloading은 메모리 효율과 성능을 동시에 개선합니다.

#Axolotl #PyTorch #Gradient Checkpointing #Activation Offloading #LLM Training #Memory Optimization

2026년 7월 2일

[ray] Ray Object Manager의 Pull RPC 배치 처리 최적화 분석

Ray의 PullManager에서 개별 객체 요청을 배치 RPC로 통합하여 네트워크 오버헤드와 CPU 사용량을 획기적으로 개선한 사례를 분석합니다.

#Ray #Distributed Systems #RPC #Optimization #C++

2026년 7월 1일

[sglang] SGLang HiCache에 AMD UMBP 기반 L3 스토리지 백엔드 도입

AMD MI3xx 환경에서 HBM 부족 문제를 해결하기 위해 UMBP 기반의 계층형 DRAM/SSD 스토리지 백엔드를 HiCache에 통합하여 TTFT를 3.5배 개선했습니다.

#SGLang #HiCache #AMD #UMBP #KV-Cache #LLM-Serving

2026년 7월 1일

[uv] uv, SIMD 가속 TOML 파싱으로 성능 향상

uv가 SIMD 가속 TOML 파싱 기능을 활성화하여 파싱 속도를 개선했습니다.

#Rust #Performance #Optimization #SIMD #TOML #uv

2026년 7월 1일

[sglang] DeepSeek NextN을 위한 Fused EH Norm 최적화: 커널 융합으로 성능 극대화하기

DeepSeek 모델의 EH Norm 연산을 커널 융합(Kernel Fusion)으로 최적화하여 연산 효율을 대폭 개선했습니다.

#SGLang #DeepSeek #CUDA #KernelFusion #Optimization

2026년 7월 1일

[axolotl] Axolotl에 도입된 Stateless 최적화: SinkGD로 메모리 효율 극대화하기

SinkGD를 통해 LLM 학습 시 옵티마이저 상태 메모리를 87% 절감하고 성능을 유지하는 최적화 기법을 분석합니다.

#LLM #Optimization #SinkGD #PyTorch #Axolotl

2026년 6월 30일

[sglang] [NPU] GLM-4.7-Flash 성능 최적화: Fused Triton 커널로 연산 병목 해결하기

Split과 RMSNorm 연산을 하나로 합친 Fused Kernel을 도입하여 GLM-4.7-Flash 모델의 NPU 추론 성능을 대폭 개선했습니다.

#NPU #Triton #Optimization #DeepSeek-V2 #SGLang #LLM Inference

2026년 6월 30일

[onnxruntime] ONNX Runtime QMoE SwiGLU GEMV 최적화: Split-K2 커널로 LLM 추론 가속화

ONNX Runtime의 Split-K2 SwiGLU GEMV 커널로 QMoE FC1 레이어 성능을 개선합니다.

#ONNXRuntime #CUDA #GEMV #Split-K2 #LLM #Optimization #SwiGLU #QMoE

2026년 6월 30일