PR Analysis

[cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상

CPython JIT 컴파일러에서 불필요한 스택 조작을 제거하여 성능을 개선하는 코드 변경 분석.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 11일

[cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선

CALL_BUILTIN_FAST_WITH_KEYWORDS 옵코드가 인자를 스택에 남기도록 변경되어 에러 발생 시의 스택 복구 효율성이 향상되었습니다.

#CPython #Python3.14 #Optimization #Bytecode #VirtualMachine

2026년 4월 11일

[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입

SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.

#SGLang #LLM #Quantization #CUDA #KernelOptimization

2026년 4월 11일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[cpython] CPython JIT 최적화: 복합 마이크로 오퍼레이션(uOp)의 분해를 통한 효율성 개선

CPython JIT의 복합 uOp를 단순한 단위 작업으로 분해하여 코드 생성의 유연성과 유지보수성을 높인 최적화 사례를 분석합니다.

#CPython #JIT #Python Internals #Optimization

2026년 4월 10일

[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거

vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.

#vLLM #ROCm #Aiter #Performance Optimization #GPU Computing #LLM

2026년 4월 10일

[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선

Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.

#vLLM #CUDA #Performance #Triton #DeepLearning

2026년 4월 10일

[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석

vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.

#vLLM #Nemotron Nano VL #Pixel Shuffle #최적화 #성능 개선 #PyTorch

2026년 4월 10일

[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석

vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.

#vLLM #ROCm #Triton #Quantization #MI300X #Performance

2026년 4월 10일

[cpython] CPython JIT 최적화: MAKE_FUNCTION의 불필요한 참조 카운팅 제거

CPython JIT 컴파일러에서 MAKE_FUNCTION 바이트코드의 불필요한 참조 카운팅을 제거하여 성능을 개선합니다.

#CPython #JIT #Optimization #Python Internals #Performance

2026년 4월 9일

[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석

DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.

#SGLang #DeepSeek #MoE #DeepEP #LLM Inference

2026년 4월 9일

[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거

AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.

#SGLang #AMD #ROCm #Performance Optimization #LayerNorm

2026년 4월 9일

[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석

sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.

#sglang #LLM #AMD GPU #벤치마크 #최적화 #CI/CD

2026년 4월 9일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감

MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.

#MLX #Apple Silicon #VAE #Memory Optimization #Performance

2026년 4월 7일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일

[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석

llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.

#llm-compressor #Gemma4 #MoE #양자화 #최적화 #기술 블로그

2026년 4월 7일

[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선

SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.

#SGLang #NIXL #KV Cache #Disaggregation #TP Heterogeneous #Optimization

2026년 4월 7일

[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선

sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.

#sglang #performance #CI #AMD #Qwen3.5 #FP8 #benchmarking

2026년 4월 7일

[cpython] CPython 최적화: _BINARY_OP_EXTEND를 통한 타입 정보 전파로 성능 향상

CPython의 Tier 2 옵티마이저에서 _BINARY_OP_EXTEND의 타입 정보 전파를 개선하여 성능을 35% 향상시켰습니다.

#Python #CPython #Optimization #JIT #Compiler

2026년 4월 6일