PR Analysis

[uv] uv, 대규모 워크스페이스 탐색 속도 1.8배 향상: 중복 파일 읽기 제거

uv가 대규모 워크스페이스 탐색 시 pyproject.toml 파일을 중복으로 읽는 문제를 해결하여 성능을 크게 개선했습니다.

#uv #성능 최적화 #Rust #Python #빌드 도구

2026년 6월 5일

[cpython] CPython 내부 들여다보기: logging.getLogger()는 어떻게 33% 더 빨라졌나?

CPython의 logging 모듈이 락 프리(lock-free) 패스트 패스를 도입하여 기존 로거 조회 성능을 33% 개선한 과정을 분석합니다.

#Python #CPython #Performance #Optimization #Logging

2026년 6월 4일

[sglang] 실시간 RGB 전송 속도 향상을 위한 최적화 분석

sglang의 실시간 RGB 전송에서 불필요한 압축을 제거하여 성능을 22.4% 향상시킨 PR 분석

#sglang #최적화 #성능 개선 #실시간 전송 #RGB #Gzip

2026년 6월 4일

[flashinfer] FlashInfer의 MoE Routing 성능 최적화: Batcher's Odd-Even Merge Sort 도입

FlashInfer의 MoE Top-K 연산에서 64비트 리덕션 최적화 및 비-2의 거듭제곱 정렬을 Batcher's 네트워크로 개선하여 성능을 극대화했습니다.

#FlashInfer #CUDA #MoE #Optimization #GPU #Sorting

2026년 6월 4일

[ray] Ray Data의 hash_partition 성능을 7배 향상시킨 최적화 전략

PyArrow의 sort_indices와 zero-copy 슬라이싱을 활용하여 Ray Data의 hash_partition 성능을 대폭 개선한 사례를 분석합니다.

#Ray #PyArrow #Performance #DataEngineering #Optimization

2026년 6월 4일

[sglang] DeepSeek V4의 Prefill 성능을 1.35배 향상시킨 FlashAttention 최적화

DeepSeek V4 모델의 Prefill 단계 성능을 획기적으로 개선한 FlashAttention 최적화 분석

#AI #LLM #Performance Optimization #FlashAttention #DeepSeek V4 #SGLang

2026년 6월 3일

[feast] Feast 온라인 서빙 성능 튜닝: Sub-2ms 달성을 위한 여정

Feast 온라인 피처 서버의 p99 지연 시간을 sub-2ms로 단축하기 위한 성능 튜닝 과정을 상세히 분석합니다.

#Feast #성능 최적화 #Kubernetes #Redis #Python

2026년 6월 3일

[vllm] [ROCm CI 최적화] Docker 3단계 빌드 전략으로 빌드 시간 26분 단축하기

vLLM 프로젝트의 ROCm CI 빌드 시간을 획기적으로 단축하기 위해 도입된 3단계 Docker 빌드 아키텍처와 Content-addressed 캐싱 기법을 심층 분석합니다.

#vLLM #ROCm #Docker #CI/CD #Buildkite #Optimization

2026년 6월 3일

[transformers] Hugging Face Transformers: Slow Tokenizer 성능 회귀 문제 해결하기

PreTrainedTokenizer의 O(T*N*logN) 성능 저하 문제를 O(T)로 복구한 최적화 사례 분석

#HuggingFace #Transformers #Python #Optimization #Tokenizer

2026년 6월 3일

[transformers] Hugging Face Transformers: SequenceFeatureExtractor.pad() 최적화로 불필요한 NumPy 배열 재변환 제거

Hugging Face Transformers의 SequenceFeatureExtractor.pad() 메서드에서 NumPy 배열의 불필요한 재변환을 제거하여 성능을 개선했습니다.

#Python #NumPy #Performance #Hugging Face Transformers #Optimization

2026년 6월 2일

[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거

FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.

#FlashInfer #CUDA #FP8 #LLM #Optimization

2026년 6월 2일

[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상

NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.

#SGLang #LLM #KV-Cache #Optimization #Distributed-Systems

2026년 6월 2일

[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거

CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.

#ONNX Runtime #CUDA #Performance Optimization #Async Inference #CUDA Graph

2026년 6월 2일

[sglang] SGLang NIXL HiCache 리팩토링 및 O_DIRECT 지원 추가: 성능 향상과 안정성 강화

SGLang의 NIXL HiCache 커넥터 리팩토링 및 O_DIRECT 지원 추가로 I/O 성능 향상 및 안정성 개선.

#SGLang #NIXL #HiCache #O_DIRECT #성능 최적화 #KV Cache

2026년 6월 1일

[vllm] vLLM의 FP8 Scaled MM 최적화: Padding 제거를 통한 20% 성능 향상

vLLM에서 FP8 행렬 곱셈 시 불필요한 Padding을 제거하여 커널 성능을 약 20% 개선한 사례를 분석합니다.

#vLLM #CUDA #Optimization #FP8 #DeepLearning

2026년 6월 1일

[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화

vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.

#vLLM #DeepSeek-V4 #CUDA #CuteDSL #Kernel-Optimization #FP8

2026년 6월 1일

[uv] uv의 로컬 휠(Wheel) 압축 해제 성능 회귀 문제 해결: astral_async_zip 버전 업데이트

astral_async_zip 라이브러리의 버전을 rc4에서 정식 버전으로 업데이트하여 로컬 휠 압축 해제 성능 저하를 해결한 사례를 분석합니다.

#Rust #uv #Performance #Optimization #Packaging

2026년 6월 1일

[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화

SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.

#SGLang #CUDA #JIT #LLM #KV-Cache

2026년 5월 31일

[cpython] tarfile 스트리밍 모드(r|*) 성능 개선: 파이썬 압축 파일 처리의 숨겨진 병목 제거

tarfile 모듈의 r|* 모드에서 발생하던 비효율적인 버퍼링 문제를 해결하여 압축 파일 읽기 성능을 획기적으로 개선한 PR 분석.

#Python #tarfile #Performance #Optimization #CPython #Compression #Streaming

2026년 5월 30일

[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합

SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.

#SGLang #LLM #Scheduler #Optimization #CUDA

2026년 5월 30일