PR Analysis

[onnxruntime] ONNX Runtime WebGPU: FlashAttentionDecodeQKV 성능 최적화 분석

WebGPU EP에서 FlashAttentionDecodeQKV의 Workgroup 크기와 타일링 전략을 최적화하여 토큰 생성 속도를 약 10% 향상시킨 사례를 분석합니다.

#ONNXRuntime #WebGPU #FlashAttention #PerformanceOptimization #LLM

2026년 7월 9일

[transformers] Hugging Face Transformers: Apple Silicon(MPS) 환경의 메모리 누수 해결을 위한 MPS Graph Cache 최적화

Apple Silicon 환경에서 가변 길이 입력으로 인한 MPS Graph Cache 메모리 비대칭 증가 문제를 torch_empty_cache_steps를 통해 해결합니다.

#HuggingFace #Transformers #MPS #AppleSilicon #MemoryOptimization

2026년 7월 9일

[loki] Grafana Loki LogQL 최적화: `max_query_series` 한도 내에서 효율적인 시리즈 누적

Loki LogQL 쿼리 엔진에서 `max_query_series` 한도를 효율적으로 적용하여 메모리 사용량을 최적화하는 방법.

#Grafana Loki #LogQL #성능 최적화 #Go #메모리 관리 #Software Engineering

2026년 7월 9일

[axolotl] Axolotl, NVFP4 LoRA 지원으로 MoE 모델 훈련 최적화

Axolotl이 NVFP4 MoE LoRA 지원을 추가하여 MoE 모델 훈련 효율성을 높였습니다.

#Axolotl #MoE #LoRA #NVFP4 #최적화 #딥러닝

2026년 7월 9일

[sglang] SGLang, 대규모 언어 모델 디버깅 속도 향상을 위한 스마트한 텐서 비교 최적화

SGLang의 새로운 PR은 대규모 언어 모델 디버깅 시 발생하는 텐서 비교 비용을 획기적으로 줄여줍니다.

#SGLang #성능 최적화 #LLM 디버깅 #텐서 비교 #코드 분석

2026년 7월 9일

[onnxruntime] ONNX Runtime WebGPU: Intel Xe-3LPG를 위한 고성능 GEMM 최적화 분석

Intel Xe-3LPG 아키텍처에서 vec4 로드와 B 타일 더블 버퍼링을 통해 GEMM 성능을 평균 12.7% 향상시킨 최적화 기법을 분석합니다.

#WebGPU #ONNX Runtime #GEMM #GPU Optimization #Intel Xe-3LPG

2026년 7월 8일

[flashinfer] FlashInfer, 초저병렬성 환경에서의 CP 델타 규칙 사전 계산 최적화

FlashInfer가 초저병렬성 환경에서 CP 델타 규칙 사전 계산 성능을 개선했습니다.

#FlashInfer #LLM #최적화 #GPU #CUDA

2026년 7월 8일

[flashinfer] FlashInfer의 BF16 GEMM 성능 극대화: CUDA Graph와 Cold L2 Cache 도입

FlashInfer의 SM100 타겟 BF16 GEMM 연산에 CUDA Graph와 Cold L2 Cache를 적용하여 오버헤드를 줄이고 성능 안정성을 확보한 사례를 분석합니다.

#FlashInfer #CUDA #GEMM #PerformanceOptimization #GPU

2026년 7월 8일

[sglang] SGLang MoE Shared Expert 최적화: 3개 커널을 1개로 융합하여 GPU 오버헤드 제거

SGLang에서 MoE Shared Expert 처리 시 3개의 GPU 커널을 1개로 융합하여 성능을 개선했습니다.

#SGLang #MoE #Kernel Fusion #Triton #GPU Optimization #AMD AITER

2026년 7월 8일

[vllm] vLLM, Diffusion-Gemma 샘플러 메모리 최적화: 요청 기반 타일링으로 OOM 문제 해결

vLLM에서 Diffusion-Gemma 모델의 샘플링 과정 중 발생하는 메모리 OOM 문제를 요청 기반 타일링으로 해결한 PR을 분석합니다.

#vLLM #Diffusion-Gemma #최적화 #메모리 관리 #LLM 추론

2026년 7월 7일

[uv] uv-pep440: 일반적인 버전 문자열 파싱 2배 가속화 최적화 분석

uv-pep440 크레이트에서 `x.y.z` 형태의 버전 문자열 파싱을 최적화하여 성능을 2배 향상시킨 PR 분석.

#Rust #uv #pep440 #optimization #performance #parsing #software-engineering

2026년 7월 7일

[uv] uv의 휠 태그 호환성 검사 최적화: 불필요한 메모리 할당 제거하기

uv의 휠 태그 호환성 검사 과정에서 발생하는 불필요한 Vec 할당을 제거하여 성능을 최대 5.6배 개선한 사례를 분석합니다.

#Rust #uv #Performance #Optimization #Packaging

2026년 7월 7일

[triton] Triton: Blackwell 아키텍처를 위한 TMEM Load-Reduce 연산 퓨전 최적화

Blackwell sm103+ GPU에서 TMEM Load와 Row Reduction을 단일 PTX 명령어로 퓨전하여 성능을 개선했습니다.

#Triton #Blackwell #GPU #Optimization #Compiler

2026년 7월 7일

[vllm] [vLLM 성능 최적화] Kimi-K2.5/K2.6 이미지 전처리 10배 가속화: Numba와 퓨전 기법 활용

vLLM에서 Kimi-K2.5/K2.6 모델의 이미지 전처리를 Numba와 룩업 테이블로 최대 10배 최적화한 사례를 분석합니다.

#vLLM #성능 최적화 #Numba #이미지 전처리 #Kimi-K2.5 #Python #Deep Learning

2026년 7월 6일

[sglang] sglang, 멀티모달 모델 인코더 병렬 처리 최적화: 전체 복제본 활용으로 성능 향상

sglang PR 분석: 멀티모달 모델의 텍스트/이미지 인코더 병렬 처리 방식을 개선하여 전체 GPU 복제본을 활용하고 성능을 극대화합니다.

#sglang #병렬 처리 #최적화 #멀티모달 #딥러닝

2026년 7월 6일

[vllm] vLLM 성능 최적화: token_to_req_indices 캐싱을 통한 6배 성능 향상

vLLM에서 중복되던 CPU-GPU 간 데이터 복사를 제거하여 커널 성능을 5~6배 개선한 최적화 사례를 분석합니다.

#vLLM #LLM #Performance #Optimization #CUDA

2026년 7월 6일

[vllm] vLLM Transformers Modeling Backend 성능 최적화: 네이티브 수준의 속도 달성

Transformers 모델링 백엔드에 Fused Linear와 MoE 최적화를 도입하여 vLLM 네이티브 수준의 성능을 구현한 기술적 분석.

#vLLM #LLM #Optimization #Transformers #PyTorch

2026년 7월 6일

[axolotl] Qwen3.5 성능 극대화: PEFT의 불필요한 Dtype 캐스팅 제거와 LoRA 커널 퓨전

Qwen3.5의 GatedDeltaNet 레이어에서 발생하는 불필요한 메모리 복사 부하를 줄여 학습 속도를 최대 5.9% 향상시킨 Axolotl의 최적화 기법을 분석합니다.

#LLM #LoRA #Optimization #PyTorch #Axolotl #Qwen3.5

2026년 7월 5일

[vllm] vLLM의 Sequence Parallelism 최적화: DP 의존성 제거를 통한 성능 향상

vLLM에서 Data Parallelism 없이 Sequence Parallelism을 지원하여 MoE 모델의 효율성을 극대화한 최적화 분석.

#vLLM #LLM #MoE #SequenceParallelism #DistributedComputing

2026년 7월 5일

[uv] uv의 패키지 설치 성능 최적화: 불필요한 site-packages 스캔 제거

uv가 설치 시 모든 패키지를 스캔하던 문제를 해결하여 대규모 환경에서 설치 속도를 최대 21.5% 개선했습니다.

#uv #Rust #Python #Performance #Optimization

2026년 7월 5일