PR Analysis

[onnxruntime] WebGPU 성능 최적화: Graph Capture 재사용을 위한 Session-level Buffer Pool 도입

ONNX Runtime WebGPU EP에서 그래프 캡처 시 발생하는 버퍼 재할당 오버헤드를 줄이기 위한 세션 레벨 버퍼 풀링 기법 분석

#WebGPU #ONNXRuntime #Performance #GraphCapture #GenAI

2026년 6월 10일

[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현

DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.

#SGLang #DeepSeek #LLM #Optimization #DistributedInference

2026년 6월 10일

[flashinfer] FlashInfer Unified MoE API: NVFP4 백엔드 통합 및 자동 튜닝 최적화

CuteDSL과 TRTLLM FP4 백엔드를 통합하고, 런타임 자동 튜닝을 통해 최적의 성능을 선택하는 Unified MoE API 설계 및 구현.

#FlashInfer #MoE #NVFP4 #Autotuning #LLM

2026년 6월 10일

[vllm] vLLM, DFlash 도입으로 추론 속도 1.2배 향상: MRV2와 CUDAGraph의 시너지

vLLM이 DFlash를 도입하여 MRV2 및 CUDAGraph와 결합, 추론 속도를 1.2배 향상시킨 기술적 분석입니다.

#vLLM #DFlash #Speculative Decoding #Performance Optimization #CUDAGraph #LLM Inference

2026년 6월 10일

[loki] Grafana Loki의 Shuffle Sharding 알고리즘 최적화: 성능 향상의 비결

Grafana Loki의 Shuffle Sharding 알고리즘이 어떻게 최적화되어 성능을 크게 향상시켰는지 분석합니다.

#Grafana Loki #Shuffle Sharding #성능 최적화 #Go #알고리즘

2026년 6월 9일

[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상

LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.

#SGLang #DeepLearning #Optimization #VAE #CUDA

2026년 6월 9일

[transformers] Hugging Face Transformers: 멀티프로세싱 풀 재사용을 통한 모듈식 변환 성능 최적화

멀티프로세싱 풀을 매번 생성하지 않고 재사용함으로써 모듈식 변환 속도를 약 50% 향상시킨 사례를 분석합니다.

#Python #Performance #Multiprocessing #HuggingFace #Optimization

2026년 6월 9일

[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화

Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석

#HuggingFace #Transformers #KernelFusion #PyTorch #Optimization

2026년 6월 9일

[sglang] SGLang의 Spectral Progressive Diffusion 도입: 추론 속도 최대 2.78배 향상

Transformer의 O(n²) 연산 비용을 혁신적으로 줄이는 Spectral Progressive Diffusion 기술 분석

#SGLang #Diffusion #Optimization #Transformer #GPU

2026년 6월 8일

[vllm] vLLM CPU 추론 성능 최적화: Speculative Decoding과 libiomp5의 중요성

vLLM의 CPU Speculative Decoding 환경에서 libiomp5 누락 시 발생하는 성능 저하 문제를 진단하고 경고하는 최적화 가이드.

#vLLM #CPU #Speculative Decoding #OpenMP #Performance

2026년 6월 8일

[triton] [AMD Triton] LLVM InstCombine의 함정을 피하는 법: TDM 텐서 클램핑 최적화

LLVM의 InstCombine이 유발하는 불필요한 VALU 연산과 v_readfirstlane 오버헤드를 방지하기 위한 TDM 디스크립터 생성 로직 개선 사례를 살펴봅니다.

#Triton #AMD #LLVM #GPU #Optimization #Codegen

2026년 6월 8일

[sglang] AMD MI300에서의 GPT-OSS 120B 추론 성능 최적화: 새로운 KV 캐시 레이아웃과 커널 통합

AMD GPU에서 GPT-OSS 120B 모델의 추론 속도를 15% 이상 향상시키는 최적화 방안을 분석합니다.

#AMD #ROCm #SGLang #GPT-OSS #성능 최적화 #KV Cache #Attention Kernel

2026년 6월 8일

[axolotl] ScatterMoE LoRA 최적화: Grouped-Gram 및 Sync-free 역전파 구현

대규모 MoE 모델의 LoRA 학습 시 발생하는 병목을 해결하기 위해 Grouped-Gram 커널과 동기화 없는 역전파 경로를 도입하여 성능을 최대 2.2배 개선했습니다.

#PyTorch #Triton #MoE #LoRA #PerformanceOptimization

2026년 6월 7일

[cpython] Python re 모듈의 findall, sub, subn 성능 개선: PyList_AppendTakeRef 도입

Python re 모듈의 findall, sub, subn 함수에서 리스트 생성 시 불필요한 참조 카운트 연산을 제거하여 성능을 개선했습니다.

#Python #CPython #Performance #Regex #Optimization

2026년 6월 7일

[cpython] CPython 내부 최적화: Reference Stealing을 통한 Frame Locals 수집 속도 향상

CPython의 frame.f_locals.items() 성능을 4% 향상시킨 Reference Stealing 기법과 내부 API 최적화 분석

#Python #CPython #Optimization #C-API #ReferenceCounting

2026년 6월 7일

[sglang] SGLang의 Ideogram4 추론 성능 최적화: Denoising 루프 내 오버헤드 제거

Ideogram4 모델의 Denoising 루프에서 반복적으로 수행되던 마스크 메타데이터 생성 및 스케줄 계산을 사전 연산으로 최적화하여 성능을 개선했습니다.

#SGLang #Diffusion #Optimization #Performance #Ideogram4

2026년 6월 7일

[vllm] vLLM의 GDN 어텐션 최적화: Prefill과 Decode 배치 분리를 통한 2배 성능 향상

Mixed 배치에서 Prefill과 Decode를 분리하여 GDN 어텐션 연산 효율을 극대화하고 1.93배의 커널 속도 향상을 달성했습니다.

#vLLM #LLM #Performance #Optimization #CUDA #GDN

2026년 6월 6일

[sglang] UniPC 스케줄러에서 GPU 동기화 제거를 통한 성능 최적화 분석

UniPC 스케줄러의 GPU 동기화 오버헤드를 제거하여 성능을 개선한 코드 변경 분석.

#PyTorch #Optimization #GPU #UniPC Scheduler #sglang

2026년 6월 6일

[hermes-agent] CLI 사용자 경험 개선: 백그라운드 캐시 워밍을 통한 모델 선택기 응답 속도 최적화

사용자 입력 전 백그라운드에서 모델 캐시를 미리 로드하여 /model 명령어 응답 시간을 1.5초에서 136ms로 단축했습니다.

#Python #Performance #CLI #Optimization #Async

2026년 6월 5일

[sglang] [SGLang] LingBot 실시간 서빙 최적화: 카메라 컨디셔닝 캐싱과 전송 프로토콜 개선

LingBot의 실시간 지연시간을 10% 이상 단축시킨 카메라 컨디셔닝 캐싱 및 전송 레이어 최적화 기법을 살펴봅니다.

#SGLang #Diffusion #Optimization #Realtime #PyTorch #Performance

2026년 6월 5일