PR Analysis

[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장

SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.

#SGLang #HiCache #Memory Leak #Bug Fix #PyTorch #Tensor

2026년 4월 2일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화

Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.

#Triton #AMD #Compiler #Bug Fix #MLIR

2026년 4월 1일

[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드

Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.

#SGLang #Ascend NPU #Ring-SP #Performance Optimization #Diffusion Models

2026년 4월 1일

[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선

Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.

#Vitest #CI #Performance #Optimization #Testing

2026년 4월 1일

[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화

4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.

#SGLang #ROCm #Kernel Fusion #LLM #Performance Optimization

2026년 4월 1일

[Loki] Kafka 파티션 불필요한 Shuffle Sharding 제거

ShardSize가 0일 때 불필요한 shuffle shard 생성을 건너뛰어 메모리 사용량 절감.

#Grafana Loki #Go #Performance #Kafka #Memory Optimization

2026년 4월 1일

[Open WebUI] ChatItem 사이드바 메모리 누수 수정

이벤트 리스너 정리와 공유 드래그 이미지로 사이드바 ChatItem의 메모리 누수 해결.

#Open WebUI #Svelte #Performance #Memory Leak #Frontend

2026년 4월 1일

[Open WebUI] DOMParser 대신 html-entities로 HTML 디코딩 최적화

스트리밍 중 매 프레임마다 DOM 문서를 생성하던 unescapeHtml을 경량 decode 함수로 교체.

#Open WebUI #TypeScript #Performance #Frontend #GC Pressure

2026년 4월 1일

[Open WebUI] 비중국어 콘텐츠에 대한 불필요한 처리 스킵으로 스트리밍 성능 개선

매 스트리밍 프레임마다 중국어 여부와 관계없이 실행되던 processChineseContent 함수에 가드 조건을 추가하여 비중국어 콘텐츠의 처리 오버헤드를 제거한 PR을 분석합니다.

#Open WebUI #Performance #TypeScript #Streaming #Early Return

2026년 4월 1일

[Loki] 캐시 최대 크기 초과 시 조기 중단으로 OOM 방지

증분 인코딩과 크기 체크로 대용량 응답의 불필요한 버퍼링 제거

#Grafana Loki #Cache #Memory Optimization #Performance

2026년 4월 1일

[Grafana Loki] Bitmap.Slice에서 바이트 정렬 경계의 off-by-one 패닉 수정

endWord 계산에서 8의 배수일 때 1바이트를 초과 할당하여 발생하는 out-of-bounds 패닉을 올림 나눗셈으로 수정한 버그 분석.

#Grafana Loki #Go #Bug Fix #Bitmap #Memory

2026년 4월 1일

[Open WebUI] 채팅 제목 업데이트 시 DB 컨텍스트를 단일 세션으로 통합하여 역직렬화 2회 제거

get_chat_by_id + update_chat_by_id 체이닝으로 두 번의 DB 컨텍스트와 JSON 역직렬화를 발생시키던 로직을 단일 세션으로 인라인한 최적화 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 4월 1일

[sglang] Multi-GPU VLM 서빙에서 ShmPointerMMData broadcast race condition 수정

Multi-GPU VLM 서빙 시 shared memory 세그먼트의 broadcast race condition을 barrier로 해결

#SGLang #VLM #Multi-GPU #Race Condition #Bug Fix

2026년 4월 1일

[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원

TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선

#SGLang #TRT-LLM #MLA #DeepSeek #Attention

2026년 4월 1일

[sglang] HiRadixCache에서 TTL 기반 hard pin 기능 제거

HiRadixCache의 TTL 기반 prefix pinning 기능 전체를 revert하여 코드 복잡도를 줄이고 캐시 관리를 단순화

#SGLang #Cache #HiRadixCache #Revert

2026년 4월 1일

[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가

Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가

#SGLang #NPU #Ascend #Ring-SP #Benchmark

2026년 4월 1일

[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합

RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합

#SGLang #JIT Kernel #RMSNorm #CUDA #Performance

2026년 4월 1일

[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거

interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임

#SGLang #JIT Kernel #CUDA #RoPE #Performance

2026년 4월 1일

[sglang] run_eval에 latency 및 throughput 메트릭 추가

평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능

#SGLang #Evaluation #Metrics #Throughput

2026년 4월 1일