#SGLang

90개의 포스트

[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화

UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.

#SGLang #LLM #Caching #Performance #RadixTree

2026년 5월 3일

[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입

NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.

#SGLang #NPU #LLM #Optimization #Quantization

2026년 5월 2일

[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화

SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석

#LLM #SGLang #Inference Optimization #KV Cache #Disaggregation #Performance

2026년 5월 1일

[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석

SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.

#LLM #KV Cache #Quantization #Optimization #SGLang #FP4 #NVFP4

2026년 4월 29일

[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결

가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.

#SGLang #PyTorch #CUDA #Optimization #LLM

2026년 4월 25일

[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현

ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.

#SGLang #Triton #ROCm #Performance Optimization #LLM

2026년 4월 25일

[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용

AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.

#SGLang #MoE #AMD GPU #최적화 #성능 #AIter #GPU Kernel

2026년 4월 25일

[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상

AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.

#AMD GPU #FP8 #Triton Kernel #KV Cache #Optimization #SGLang

2026년 4월 25일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석

SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.

#SGLang #성능 최적화 #비동기 프로그래밍 #SSE #Python #메시지큐 #Pydantic #msgspec

2026년 4월 22일

[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선

SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.

#SGLang #Diffusion Models #RL #Optimization #Performance #API

2026년 4월 15일

[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석

4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.

#Triton #MoE #Qwen3.5 #Kernel-Fusion #SGLang #AMD

2026년 4월 15일

[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선

Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.

#SGLang #PyTorch Inductor #FP8 #Kernel Fusion #LLM Optimization

2026년 4월 14일

[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석

Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.

#SGLang #Intel GPU #XPU #MoE #GPT-OSS #Deep Learning Optimization

2026년 4월 13일

[sglang] SGLang 토크나이저 매니저: O(n²) 복사 비용 제거를 통한 스트리밍 성능 최적화

SGLang의 토크나이저 매니저에서 O(n²) 복사 비용을 제거하여 스트리밍 성능을 획기적으로 개선했습니다.

#SGLang #성능 최적화 #토크나이저 #스트리밍 #Python #O(n^2)

2026년 4월 12일

[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략

GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.

#SGLang #LLM #AMD #ROCm #PerformanceOptimization

2026년 4월 12일

[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선

AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.

#SGLang #AMD #ROCm #AllReduce #Optimization #LLM

2026년 4월 12일

[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입

SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.

#SGLang #LLM #Quantization #CUDA #KernelOptimization

2026년 4월 11일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석

DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.

#SGLang #DeepSeek #MoE #DeepEP #LLM Inference

2026년 4월 9일

[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거

AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.

#SGLang #AMD #ROCm #Performance Optimization #LayerNorm

2026년 4월 9일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선

SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.

#SGLang #NIXL #KV Cache #Disaggregation #TP Heterogeneous #Optimization

2026년 4월 7일

[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선

Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.

#SGLang #Speculative Decoding #C++#Performance Optimization #Trie

2026년 4월 6일

[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화

SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.

#SGLang #Ngram #Speculative Decoding #Suffix Automaton #성능 최적화 #LLM #Python #C++

2026년 4월 6일

[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현

DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.

#SGLang #DeepSeek #LLM #Optimization #Inference

2026년 4월 5일

[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입

Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.

#SGLang #Diffusion #NVFP4 #CUTLASS #Performance

2026년 4월 4일

[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입

SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.

#VLM #Optimization #SGLang #Multimodal #Caching #Performance

2026년 4월 4일

[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합

FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention4 #SpeculativeDecoding #LLM #Optimization

2026년 4월 4일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[sglang] SGLang 스케줄러: 사전 생성 전용 배치 병합 시 is_prefill_only 플래그 로직 개선

사전 생성 전용 배치와 일반 생성 배치가 병합될 때 발생하는 is_prefill_only 플래그 오류를 수정하여 메모리 누수를 방지합니다.

#SGLang #스케줄러 #최적화 #메모리 누수 #배치 처리

2026년 4월 2일

[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화

SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.

#SGLang #FlashInfer #TRT-LLM #MoE #FP8 #최적화 #성능 #MiniMax-M2.5

2026년 4월 2일

[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합

Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.

#SGLang #Triton #CUDA #LLM #Optimization

2026년 4월 2일

[sglang] GSM8K 평가를 Chat API 기반으로 통합

GSM8K 평가 경로를 few-shot 전용 모듈에서 Chat API 기반 simple_eval로 통합하여 CI 회귀 테스트 일관성 확보

#SGLang #Evaluation #GSM8K #Testing #Refactoring

2026년 4월 2일

[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정

Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경

#SGLang #TRT-LLM #Blackwell #DeepSeek

2026년 4월 2일

[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정

Prefill-Decode 분리 환경에서 device/host/storage별 캐시 히트 통계가 올바르게 전달되도록 수정

#SGLang #HiCache #Disaggregation #Cache

2026년 4월 2일

[sglang] Ngram Corpus를 Torch cpp_extension에서 TVM FFI로 마이그레이션

Speculative decoding의 ngram corpus 모듈을 torch cpp_extension에서 TVM FFI jit_kernel 기반으로 전환하여 빌드 의존성을 줄이고 JIT 컴파일 경로를 통일

#SGLang #TVM FFI #JIT Kernel #Speculative Decoding

2026년 4월 2일

[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장

SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.

#SGLang #HiCache #Memory Leak #Bug Fix #PyTorch #Tensor

2026년 4월 2일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드

Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.

#SGLang #Ascend NPU #Ring-SP #Performance Optimization #Diffusion Models

2026년 4월 1일

[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화

4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.

#SGLang #ROCm #Kernel Fusion #LLM #Performance Optimization

2026년 4월 1일

[sglang] Multi-GPU VLM 서빙에서 ShmPointerMMData broadcast race condition 수정

Multi-GPU VLM 서빙 시 shared memory 세그먼트의 broadcast race condition을 barrier로 해결

#SGLang #VLM #Multi-GPU #Race Condition #Bug Fix

2026년 4월 1일

[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원

TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선

#SGLang #TRT-LLM #MLA #DeepSeek #Attention

2026년 4월 1일

[sglang] HiRadixCache에서 TTL 기반 hard pin 기능 제거

HiRadixCache의 TTL 기반 prefix pinning 기능 전체를 revert하여 코드 복잡도를 줄이고 캐시 관리를 단순화

#SGLang #Cache #HiRadixCache #Revert

2026년 4월 1일

[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가

Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가

#SGLang #NPU #Ascend #Ring-SP #Benchmark

2026년 4월 1일

[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합

RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합

#SGLang #JIT Kernel #RMSNorm #CUDA #Performance

2026년 4월 1일

[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거

interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임

#SGLang #JIT Kernel #CUDA #RoPE #Performance

2026년 4월 1일

[sglang] run_eval에 latency 및 throughput 메트릭 추가

평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능

#SGLang #Evaluation #Metrics #Throughput

2026년 4월 1일

[sglang] CI에 네트워크 타임아웃 추가 및 러너별 동적 병렬도 설정

테스트 네트워크 요청에 타임아웃을 추가하고, 5090/2-GPU 러너에 맞는 동적 max-parallel 값을 도입

#SGLang #CI/CD #GitHub Actions #Testing

2026년 4월 1일

[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성

SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.

#SGLang #sgl-kernel #JIT #AOT #Cleanup #CUDA #C++

2026년 4월 1일

[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존

SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.

#SGLang #CUDA Graph #Sliding Window Attention #성능 최적화 #LLM 추론

2026년 3월 31일

[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결

Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.

#SGLang #NPU #Ascend #Memory Management #Bug Fix

2026년 3월 31일

[sglang] DeepEP Low Latency FP8 Dispatch 변경 revert

DeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보

#SGLang #DeepEP #MoE #FP8 #Revert

2026년 3월 31일

[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지

pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결

#SGLang #CI/CD #Performance #NVIDIA

2026년 3월 31일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일

[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상

SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.

#SGLang #Testing #JIT Compilation #Multiprocessing #All Reduce #CUDA

2026년 3월 31일

[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용

SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.

#SGLang #CI #FlashInfer #MXFP8 #Quantization #Testing

2026년 3월 30일

[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정

SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.

#SGLang #Qwen3.5 #MoE #Pipeline Parallelism #Mamba #Bug Fix

2026년 3월 30일

[sglang] Dumper 디버그 유틸리티 리팩토링: 설정 구조 개선과 Non-intrusive 모드 도입

SGLang의 dumper.py를 upstream main에서 동기화하며 설정 클래스 구조 개선, CLI key=value 파싱 지원, non-intrusive 모드 등을 추가한 대규모 리팩토링 분석.

#SGLang #Debug #Refactoring #Python #LLM Inference

2026년 3월 30일

[SGLang] Mamba 캐시 누수 수정: adder 실패 시 pool index 회수

요청 추가 실패 시 할당된 mamba_pool_idx를 해제하지 않아 발생하는 메모리 누수를 수정한다

#SGLang #Mamba #Bug Fix #Memory Leak

2026년 3월 30일

[sglang] 미사용 BatchMultimodalOutput/DecodeReq 제거로 코드베이스 정리

SGLang에서 사용되지 않는 BatchMultimodalOutput과 BatchMultimodalDecodeReq 데이터클래스를 제거하여 81줄의 dead code를 정리한 클린업 분석.

#SGLang #Cleanup #Dead Code #Python #LLM Inference

2026년 3월 29일

[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화

멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다

#SGLang #CUDA IPC #Multimodal #Performance

2026년 3월 29일

[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가

SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.

#SGLang #CI #Benchmark #GB300 #Blackwell #NeMo Skills #VLM

2026년 3월 29일

[SGLang] GDN의 kkt + solve_tril을 하나의 Triton 커널로 퓨전

Gated Delta Network의 K@K^T 계산과 삼각 행렬 풀이를 단일 Triton 커널로 합쳐 HBM 왕복을 제거한다

#SGLang #Triton #Kernel Fusion #Linear Attention

2026년 3월 29일

[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석

Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.

#SGLang #Whisper #CUDA Graph #Performance Optimization #LLM

2026년 3월 28일

[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원

SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.

#SGLang #Python GC #Performance Tuning #Memory Management #Server Args

2026년 3월 27일

[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrap

SGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.

#SGLang #VLM #Shared Memory #Multimodal #Optimization #IPC

2026년 3월 27일

[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록

SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.

#SGLang #CI #JIT Kernel #Testing #CUDA

2026년 3월 27일

[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가

SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.

#SGLang #CUDA #Diffusion #RoPE #RMSNorm #Kernel Fusion #GPU Optimization

2026년 3월 27일

[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소

SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.

#SGLang #CUDA #Kernel Optimization #RMSNorm #Diffusion #GPU

2026년 3월 27일

[sglang] flush_cache 단순화: 동시 요청 거부와 클라이언트 재시도 제거

SGLang의 flush_cache를 Deque 기반 다중 요청 큐에서 Optional 단일 요청으로 단순화하고, 서버 측 timeout과 명확한 에러 메시지를 도입한 리팩토링 분석.

#SGLang #Cache Management #API Design #Simplification #Concurrency

2026년 3월 26일

[sglang] CI 버그 수정: /rerun-ut 동시 실행 시 중복 워크플로우 URL 문제 해결

SGLang CI에서 /rerun-ut 커맨드를 동시에 여러 개 실행할 때 잘못된 워크플로우 URL이 게시되는 버그를 run-name에 test_command를 포함시켜 수정한 분석.

#SGLang #CI #GitHub Actions #Bug Fix #Workflow

2026년 3월 26일

[SGLang] flush_cache API에 timeout 파라미터 추가

HiCache 비동기 작업 중 캐시 flush 실패를 방지하기 위해 대기 시간을 설정할 수 있는 timeout 파라미터를 도입한다

#SGLang #API #Cache Management #HiCache

2026년 3월 26일

[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선

SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.

#SGLang #NPU #CI #GitHub Actions #Caching #Ascend

2026년 3월 26일

[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬

sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.

#SGLang #sgl-kernel #Python Packaging #Wheel #CUDA #CI/CD

2026년 3월 26일

[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용

SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.

#SGLang #AMD #ROCm #Bug Fix #Lazy Import #Linear Attention

2026년 3월 25일

[SGLang] Diffusion JIT 커널 테스트 레이아웃 리팩터링 및 CI 트리거 정밀화

JIT 커널 테스트/벤치마크를 diffusion/ 서브폴더로 이동하고 CI 트리거를 관련 경로에만 반응하도록 좁힌다

#SGLang #CI/CD #Testing #Refactoring

2026년 3월 26일

[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입

FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention #CUDA #Optimization #LLM

2026년 3월 25일

[SGLang] Diffusion Triton Rotary Embedding 다중 헤드 병렬 처리 최적화

Triton rotary embedding 커널을 토큰당 여러 헤드를 동시에 처리하도록 재구성하여 커널 launch 횟수를 줄인다

#SGLang #Triton #Diffusion #Rotary Embedding

2026년 3월 26일

[SGLang] wait-for-jobs에 ETag conditional request 도입으로 API rate limit 절약

GitHub Actions의 wait-for-jobs에서 ETag 기반 조건부 요청을 사용하여 304 Not Modified 응답 시 rate limit을 소비하지 않도록 개선한다

#SGLang #CI/CD #GitHub Actions #Rate Limiting

2026년 3월 25일

[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정

Qwen3.5 HiCache 테스트를 별도 파일로 분리하고 max_tokens를 16000으로 늘려 CI 안정성을 확보한다

#SGLang #CI #Testing #HiCache

2026년 3월 25일

[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환

completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.

#Ray #Python #Performance #SGLang #LLM Serving

2026년 3월 24일

[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리

HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.

#SGLang #LLM #KV Cache #Sparse Attention #CUDA

2026년 3월 23일

[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입

SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.

#CUDA #CUTLASS #GEMM #FP8 #SGLang #SM120

2026년 3월 22일

[논문리뷰] Fish Audio S2 Technical Report

본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multi-speaker #Multi-turn #Instruction Following #Dual-Autoregressive #Reinforcement Learning (RL)#Data Pipeline #SGLang

2026년 3월 10일

[sglang] SGLang, Helios 모델 통합으로 실시간 장편 비디오 생성의 새로운 지평을 열다

SGLang이 Helios 모델을 통합하여 실시간 장편 비디오 생성 성능을 혁신적으로 개선했습니다.

#SGLang #Helios #비디오 생성 #AI 모델 #최적화

2026년 3월 4일

[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선

MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.

#MoE #Triton #Kernel Fusion #GPU Optimization #LLM Inference #SGLang

2026년 3월 4일

[SGLang] MoE 모델을 위한 Single Batch Overlap 기법

Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다

#SGLang #MoE #GPU Optimization #Inference

2025년 12월 3일

[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입

SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다

#CUDA Graph #torch.compile #LLM Inference #SGLang

2025년 10월 12일

[SGLang] DeepSeek V3.2 지원 추가

SGLang에 DeepSeek V3.2 모델과 Native Sparse Attention(NSA) 백엔드를 추가한다

#SGLang #DeepSeek #Sparse Attention #Model Support

2025년 10월 6일