PR Analysis

[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석

SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.

#DeepSeek-V4 #AMD #ROCm #SGLang #Aiter #Performance Optimization

2026년 5월 4일

[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기

convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.

#HuggingFace #Transformers #Python #Optimization #Performance

2026년 5월 4일

[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상

Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석

#transformers #optimization #MoE #FP8 #performance #kernel

2026년 5월 4일

[cpython] CPython JIT 최적화: 불변 및 불사 객체에 대한 불필요한 의존성 제거하기

CPython JIT 엔진에서 Immutable 및 Immortal 클래스에 대한 감시(Watch)를 생략하여 성능을 개선한 사례를 분석합니다.

#CPython #JIT #Optimization #Python-Internals #Performance

2026년 5월 3일

[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출

LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.

#sglang #optimization #performance #deep learning #denoising #attention

2026년 5월 3일

[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화

UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.

#SGLang #LLM #Caching #Performance #RadixTree

2026년 5월 3일

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일

[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성

비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.

#LlamaFactory #Qwen-VL #Optimization #Performance #LLM

2026년 5월 3일

[vllm] vLLM IR의 진화: maybe_inplace 오버로드를 통한 메모리 최적화

vLLM IR에 maybe_inplace 오버로드를 도입하여 커널 실행 시 입력 텐서 메모리를 재사용함으로써 성능을 개선했습니다.

#vLLM #IR #Optimization #PyTorch #Memory Management

2026년 5월 2일

[openclaw] OpenClaw: 런타임 플러그인 레지스트리 재사용을 통한 성능 최적화

OpenClaw의 `resolvePreparedExtraParams` 함수 최적화를 통해 임베디드 턴당 1.9초의 동기 비용을 절감했습니다.

#OpenClaw #성능 최적화 #캐싱 #WeakMap #플러그인 #JavaScript

2026년 5월 2일

[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화

HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석

#AI #딥러닝 #최적화 #Triton #HunyuanVideo #VAE

2026년 5월 2일

[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입

NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.

#SGLang #NPU #LLM #Optimization #Quantization

2026년 5월 2일

[cpython] Python JIT의 GDB 디버깅 지원: .eh_frame 생성을 통한 스택 언와인딩 구현

CPython JIT 코드의 GDB 백트레이스 지원을 위해 .eh_frame과 DWARF CFI를 동적으로 생성하는 최적화 기법을 분석합니다.

#CPython #JIT #GDB #DWARF #Debugging #LowLevel

2026년 5월 2일

[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석

FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.

#FlashInfer #CUDA #DiT #SageAttention #Quantization #DeepLearning

2026년 5월 1일

[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석

ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.

#vLLM #ROCm #DeepSeek #MLA #Performance Optimization #Triton

2026년 5월 1일

[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화

vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.

#vLLM #LLM #Triton #Performance #JIT

2026년 5월 1일

[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화

SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석

#LLM #SGLang #Inference Optimization #KV Cache #Disaggregation #Performance

2026년 5월 1일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용

CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.

#CUDA #PyTorch #Optimization #LoRA #Performance

2026년 4월 30일

[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화

Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.

#vLLM #LLM #DistributedInference #KVCache #PerformanceOptimization

2026년 4월 30일