PR Analysis

[vllm] vLLM Qwen3-VL 멀티 비디오 프롬프트 처리 최적화 분석

텍스트 기반 프롬프트 확장 방식을 토큰 수준 치환으로 변경하여 성능 향상 및 EVS 버그를 해결했습니다.

#vLLM #Qwen3-VL #Optimization #LLM #Multimodal

2026년 6월 20일

[axolotl] Axolotl, Marlin W4A16 도입으로 MoE 모델 추론 속도 1.79배 향상 및 품질 개선

Axolotl이 Marlin W4A16 백엔드를 도입하여 MoE 모델의 추론 속도를 1.79배 높이고, 활성화 양자화 오류를 제거하여 모델 품질을 향상시켰습니다.

#Axolotl #Marlin #MoE #DeepSeek-V4 #W4A16 #BF16 #Quantization #Optimization #Deep Learning #LLM

2026년 6월 20일

[sglang] SGLang: AMD GPU 환경에서의 DeepSeek-V4 성능 최적화 분석

AMD GPU 환경에서 MLA GEMM 및 RoPE 연산을 최적화하여 추론 성능을 최대 8.8% 향상시킨 사례 분석

#SGLang #AMD #DeepSeek-V4 #Triton #GEMM #RoPE

2026년 6월 20일

[sglang] SGLang LTX-2 최적화: LoRA 병합 오버헤드 제거를 통한 추론 성능 향상

LTX-2 모델의 stage-1 distilled LoRA를 베이스 모델에 사전 병합하여, 요청마다 발생하는 병합/해제 오버헤드를 제거했습니다.

#SGLang #LTX-2 #LoRA #Optimization #Inference

2026년 6월 19일

[sglang] LTX-2 모델 성능 최적화: NPU 및 GPU에서의 지연 시간 단축 분석

LTX-2 모델의 E2E 지연 시간을 NPU에서 27%, GPU에서 3% 단축한 코드 변경 분석.

#sglang #LTX-2 #성능 최적화 #NPU #GPU #RMSNorm #FlashAttention

2026년 6월 19일

[cpython] CPython의 PyCriticalSection2 최적화: 중복 락 획득 방지

CPython의 PyCriticalSection2에서 이미 획득한 락을 재귀적으로 다시 획득하지 않도록 최적화하여 성능을 개선했습니다.

#CPython #Concurrency #Optimization #Locking #Internals

2026년 6월 19일

[cpython] CPython 3.14: PyCriticalSection2의 동일 락 재획득 방지 최적화 분석

CPython 3.14에서 PyCriticalSection2의 동일 락 재획득 방지 최적화 분석 및 그 의미를 살펴봅니다.

#Python #CPython #Optimization #Concurrency #Critical Section

2026년 6월 19일

[triton] Triton Autotuner 최적화: Pruned Config가 하나일 때 불필요한 벤치마크 생략하기

Triton Autotuner에서 설정이 하나로 압축될 경우, 불필요한 벤치마킹 과정을 건너뛰어 성능을 개선한 사례를 분석합니다.

#Triton #Autotuner #Performance #Optimization #Compiler

2026년 6월 18일

[ray] Ray RLlib의 비동기 학습 성능 최적화: PULL 기반 EnvRunnerStateServer 도입

RLlib의 비동기 알고리즘(IMPALA, APPO)에서 가중치 동기화 방식을 PUSH에서 PULL 모델로 전환하여 오프폴리시 지연을 20% 개선했습니다.

#Ray #RLlib #ReinforcementLearning #DistributedSystems #PerformanceOptimization

2026년 6월 18일

[vllm] vLLM Mooncake KV 오프로딩 최적화: 불필요한 KV 조회 건너뛰기

vLLM의 Mooncake KV 오프로딩 성능 향상: 불필요한 KV 조회 건너뛰고 스토리지 오버헤드 감소

#vLLM #LLM #KV Cache #Optimization #Performance

2026년 6월 18일

[sglang] Mamba GDN의 컨볼루션 캐시 최적화: 메모리 사용량 절반으로 줄이기

Mamba 및 GDN 모델에서 컨볼루션 캐시 메모리 사용량을 절반으로 줄이는 최적화 기법을 소개합니다.

#Mamba #GDN #최적화 #메모리 관리 #SGLang

2026년 6월 18일

[sglang] SGLang의 Linear-Attention 성능 최적화: int8 체크포인트 풀 도입

Linear-attention 모델의 Radix 캐시 효율을 int8 양자화로 2배 높여, 메모리 제약 없이 더 많은 프리픽스를 재사용하는 최적화 기법.

#SGLang #Linear-Attention #Optimization #Quantization #LLM

2026년 6월 18일

[ray] Ray Core의 Lock Contention 해결: Publisher의 비동기 처리 도입

Ray의 Object Pubsub 로직을 IO 스레드로 분리하여 스케줄링 루프의 Lock Contention을 획기적으로 개선한 사례를 분석합니다.

#Ray #C++#Concurrency #Performance #Distributed Systems

2026년 6월 17일

[sglang] SGLang 성능 최적화: Speculative Decoding의 H2D 병목 해결 및 코드 중복 제거

Speculative Decoding 경로에서 발생하는 동기식 H2D 복사를 비동기 방식으로 최적화하고, 중복된 로직을 통합하여 성능을 개선했습니다.

#SGLang #LLM #Performance #PyTorch #SpeculativeDecoding

2026년 6월 17일

[sglang] [성능 최적화] SGLang `prepare_for_decode`에서 `latest_output_ids` H2D 복사 비동기화로 디코딩 처리량 30% 향상

SGLang 디코딩 과정에서 `latest_output_ids`의 H2D 복사를 비동기화하여 성능을 크게 개선한 사례 분석.

#SGLang #PyTorch #CUDA #성능 최적화 #GPU #LLM #H2D #비동기 프로그래밍

2026년 6월 17일

[vllm] vLLM에서 Flashinfer 기반 Non-gated MoE bf16 지원 최적화 분석

vLLM의 Flashinfer-TRTLLM 백엔드에 Non-gated MoE bf16 지원을 추가하여 성능을 약 15% 향상시킨 기술적 변경사항을 분석합니다.

#vLLM #MoE #Flashinfer #DeepLearning #Optimization

2026년 6월 17일

[onnxruntime] ONNX Runtime WebGPU: Reduce 연산 최적화를 통한 성능 향상

WebGPU 환경에서 ReduceMean 연산 시 발생하는 불필요한 Transpose 오버헤드를 제거하여 모델 추론 속도를 개선한 사례를 분석합니다.

#ONNXRuntime #WebGPU #Optimization #Performance #GPGPU

2026년 6월 16일

[sglang] Ascend NPU에서 Qwen3 모델을 위한 W8A8 MXFP8 양자화 지원

Ascend NPU 환경에서 Qwen3 모델의 추론 성능을 높이기 위해 MXFP8 온라인 및 오프라인 양자화 기능을 구현했습니다.

#Ascend NPU #Quantization #MXFP8 #LLM #SGLang

2026년 6월 16일

[sglang] [성능 최적화] Wan2.2 모델을 위한 최적의 torch.compile 모드 찾기: 왜 'default'가 더 빠를까?

Wan2.2 T2V A14B 모델에서 torch.compile 모드를 'default'로 변경하여 성능을 5% 이상 향상시키고 메모리 사용량을 줄인 사례를 분석합니다.

#PyTorch #torch.compile #SGLang #Performance #DeepLearning #Wan2.2

2026년 6월 16일

[sglang] AMD GPU 최적화: Triton 커널 퓨전을 통한 Qwen2 MoE 공유 전문가 게이팅 성능 향상

AMD GPU에서 Qwen2 MoE 모델의 공유 전문가 게이팅 연산을 Triton 커널로 융합하여 성능을 개선한 PR 분석

#AMD #Triton #Triton Kernel Fusion #Qwen2 MoE #Performance Optimization #SGLang

2026년 6월 16일