PR Analysis

[cpython] CPython unicodedata.normalize() 최적화: Py_UCS4 버퍼 직접 조작으로 성능 향상

unicodedata.normalize()의 정렬 로직을 Py_UCS4 버퍼 직접 조작으로 최적화하여 성능을 개선합니다.

#Python #CPython #Optimization #Unicode #Performance #C

2026년 6월 15일

[sglang] SGLang: DeepSeek-R1 FP8 GEMM 성능 회귀 문제 해결 및 최적화

FP8 GEMM 연산 시 불필요한 Triton fallback을 제거하여 DeepSeek-R1 모델의 추론 성능을 복구했습니다.

#SGLang #DeepSeek-R1 #FP8 #GEMM #Optimization

2026년 6월 15일

[flashinfer] FlashInfer, SM120 GPU를 위한 희소 MLA 커널 추가로 LLM 추론 속도 향상

FlashInfer가 SM120 GPU를 위한 희소 MLA 커널을 도입하여 LLM 추론 성능을 대폭 개선했습니다.

#FlashInfer #LLM #GPU 최적화 #CUDA 커널 #머신러닝

2026년 6월 15일

[transformers] Hugging Face Transformers: logits_to_keep을 활용한 메모리 최적화

모델 내부에서 logits을 미리 슬라이싱하여 메모리 사용량을 줄이고 추론 처리량을 개선하는 최적화 기법을 소개합니다.

#HuggingFace #Transformers #LLM #Optimization #DeepLearning

2026년 6월 15일

[hermes-agent] [성능 최적화] OpenRouter 모델 메타데이터의 디스크 캐싱 도입기: Hermes Agent의 콜드 스타트 개선

OpenRouter API 호출을 줄이고 콜드 스타트 성능을 높이기 위해 디스크 기반 캐시 계층을 도입한 최적화 사례를 분석합니다.

#Python #Performance #Caching #OpenRouter #HermesAgent

2026년 6월 14일

[sglang] SGLang의 긴 문맥 처리 최적화: fill_ids 재구성 오버헤드 줄이기

RadixKey에 limit을 도입하여 불필요한 메모리 복사를 제거하고 긴 문맥 추론 성능을 개선한 사례 분석.

#SGLang #LLM #Optimization #Python #Performance

2026년 6월 14일

[vllm] vLLM의 동적 추측 디코딩(Dynamic Speculative Decoding) 도입

배치 크기에 따라 추측 디코딩의 토큰 수를 최적화하여 높은 부하에서도 효율적인 추론 성능을 유지하는 Dynamic SD 구현

#vLLM #LLM #Speculative Decoding #Performance Optimization #Inference

2026년 6월 14일

[sglang] SGLang, GPU 간 VAE 디코딩 최적화를 통한 이미지 생성 속도 향상

SGLang의 최신 PR은 VAE 디코딩 과정을 최적화하여 이미지 생성 속도를 크게 향상시킵니다.

#SGLang #AI #이미지 생성 #최적화 #VAE #병렬 처리 #GPU

2026년 6월 14일

[sglang] [SGLang] VAE 병렬 디코딩 최적화: CFG 병렬화와의 시너지 분석

SGLang에서 CFG 병렬화 시 VAE 디코딩을 모든 Rank가 참여하도록 개선하여 디코딩 속도를 31% 향상시킨 사례를 분석합니다.

#Diffusion #SGLang #VAE #Parallel Computing #Optimization

2026년 6월 13일

[sglang] SGLang PD-Disaggregation 최적화: Mori 백엔드에서의 증분 KV 전송 구현

SGLang의 PD-Disaggregation 환경에서 Mori 전송 백엔드와 Radix Cache를 연동하여 중복 KV 전송을 제거하고 TTFT를 20% 이상 개선했습니다.

#SGLang #LLM #KV-Cache #Optimization #Distributed-Systems

2026년 6월 13일

[sglang] Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화

Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화하는 PR 분석

#Apple Silicon #MLX #MoE #Optimization #SGLang

2026년 6월 13일

[triton] Triton AMD StreamK GEMM 커널의 Race Condition 해결: 동기화 로직 최적화 분석

AMD GPU 환경에서 StreamK GEMM 커널의 동기화 결함(Race Condition)을 해결하고 안정성을 확보한 코드 변경 사항을 분석합니다.

#Triton #AMD #GEMM #StreamK #GPU #Concurrency

2026년 6월 13일

[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상

Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.

#SGLang #GPU Optimization #FP8 Quantization #Deep Learning Inference #Cutlass #Performance Tuning

2026년 6월 12일

[vllm] vLLM에서 Lfm2VL 모델을 위한 Encoder CUDA Graph 최적화 적용

Lfm2VL 모델에 Encoder CUDA Graph를 도입하여 낮은 배치 사이즈에서 추론 지연 시간을 10-20% 개선했습니다.

#vLLM #CUDA Graph #LLM #Optimization #Performance

2026년 6월 12일

[triton] Triton에서 i8 행렬 곱셈 최적화: 레지스터 압력 감소 및 성능 향상

Triton의 i8 행렬 곱셈에서 레지스터 압력을 줄이고 성능을 향상시키는 최적화 기법을 분석합니다.

#Triton #AI #최적화 #행렬 곱셈 #GPU

2026년 6월 12일

[onnxruntime] ONNX Runtime CUDA MoE: 소규모 배치 디코딩을 위한 SoftmaxTopK 라우터 최적화

ONNX Runtime CUDA MoE에서 소규모 배치 디코딩 시 SoftmaxTopK 라우터 성능을 개선하는 방법을 기술합니다.

#ONNX Runtime #CUDA #MoE #최적화 #성능

2026년 6월 12일

[onnxruntime] WebGPU FlashAttention 최적화: 커널 퓨전과 가변 시퀀스 길이 지원으로 성능 극대화

WebGPU FlashAttention의 커널 퓨전과 가변 시퀀스 길이 지원을 통한 성능 개선 분석

#WebGPU #FlashAttention #ONNX Runtime #최적화 #성능 개선 #AI 가속

2026년 6월 11일

[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성

Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.

#SGLang #Diffusion #FP8 #GEMM #Optimization #CUDA

2026년 6월 11일

[sglang] ROCm 아키텍처별 최적화: 런타임 디스패치로 성능 극대화

ROCm 커널의 멀티 아키텍처 지원 강화 및 런타임 최적화를 통해 성능을 향상시킨 PR 분석

#ROCm #GPU 최적화 #커널 프로그래밍 #FP8 #TopK #성능 향상

2026년 6월 11일

[sglang] SGLang에서 Qwen3-Next FP8 MoE 최적화: H200을 위한 Shared-Expert Fusion

H200 환경에서 Qwen3-Next FP8 MoE 모델의 성능을 극대화하기 위한 Shared-Expert Fusion 및 Triton 커널 최적화 분석.

#SGLang #LLM #MoE #FP8 #Triton #H200

2026년 6월 11일