[sglang] SGLang LTX-2 최적화: LoRA 병합 오버헤드 제거를 통한 추론 성능 향상LTX-2 모델의 stage-1 distilled LoRA를 베이스 모델에 사전 병합하여, 요청마다 발생하는 병합/해제 오버헤드를 제거했습니다.#SGLang#LTX-2#LoRA#Optimization#Inference2026년 6월 19일댓글 수 로딩 중
[sglang] Mamba GDN의 컨볼루션 캐시 최적화: 메모리 사용량 절반으로 줄이기Mamba 및 GDN 모델에서 컨볼루션 캐시 메모리 사용량을 절반으로 줄이는 최적화 기법을 소개합니다.#Mamba#GDN#최적화#메모리 관리#SGLang2026년 6월 18일댓글 수 로딩 중
[sglang] SGLang의 Linear-Attention 성능 최적화: int8 체크포인트 풀 도입Linear-attention 모델의 Radix 캐시 효율을 int8 양자화로 2배 높여, 메모리 제약 없이 더 많은 프리픽스를 재사용하는 최적화 기법.#SGLang#Linear-Attention#Optimization#Quantization#LLM2026년 6월 18일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: Speculative Decoding의 H2D 병목 해결 및 코드 중복 제거Speculative Decoding 경로에서 발생하는 동기식 H2D 복사를 비동기 방식으로 최적화하고, 중복된 로직을 통합하여 성능을 개선했습니다.#SGLang#LLM#Performance#PyTorch#SpeculativeDecoding2026년 6월 17일댓글 수 로딩 중
[sglang] [성능 최적화] SGLang `prepare_for_decode`에서 `latest_output_ids` H2D 복사 비동기화로 디코딩 처리량 30% 향상SGLang 디코딩 과정에서 `latest_output_ids`의 H2D 복사를 비동기화하여 성능을 크게 개선한 사례 분석.#SGLang#PyTorch#CUDA#성능 최적화#GPU#LLM#H2D#비동기 프로그래밍2026년 6월 17일댓글 수 로딩 중
[sglang] Ascend NPU에서 Qwen3 모델을 위한 W8A8 MXFP8 양자화 지원Ascend NPU 환경에서 Qwen3 모델의 추론 성능을 높이기 위해 MXFP8 온라인 및 오프라인 양자화 기능을 구현했습니다.#Ascend NPU#Quantization#MXFP8#LLM#SGLang2026년 6월 16일댓글 수 로딩 중
[sglang] [성능 최적화] Wan2.2 모델을 위한 최적의 torch.compile 모드 찾기: 왜 'default'가 더 빠를까?Wan2.2 T2V A14B 모델에서 torch.compile 모드를 'default'로 변경하여 성능을 5% 이상 향상시키고 메모리 사용량을 줄인 사례를 분석합니다.#PyTorch#torch.compile#SGLang#Performance#DeepLearning#Wan2.22026년 6월 16일댓글 수 로딩 중
[sglang] AMD GPU 최적화: Triton 커널 퓨전을 통한 Qwen2 MoE 공유 전문가 게이팅 성능 향상AMD GPU에서 Qwen2 MoE 모델의 공유 전문가 게이팅 연산을 Triton 커널로 융합하여 성능을 개선한 PR 분석#AMD#Triton#Triton Kernel Fusion#Qwen2 MoE#Performance Optimization#SGLang2026년 6월 16일댓글 수 로딩 중
[sglang] SGLang: DeepSeek-R1 FP8 GEMM 성능 회귀 문제 해결 및 최적화FP8 GEMM 연산 시 불필요한 Triton fallback을 제거하여 DeepSeek-R1 모델의 추론 성능을 복구했습니다.#SGLang#DeepSeek-R1#FP8#GEMM#Optimization2026년 6월 15일댓글 수 로딩 중
[sglang] SGLang NPU 성능 최적화: Disaggregation 모드 개선 분석SGLang의 NPU 환경에서 Disaggregation 모드의 성능을 개선하는 코드 변경 사항을 분석합니다.#SGLang#NPU#성능 최적화#LLM#Disaggregation2026년 6월 15일댓글 수 로딩 중
[sglang] SGLang의 긴 문맥 처리 최적화: fill_ids 재구성 오버헤드 줄이기RadixKey에 limit을 도입하여 불필요한 메모리 복사를 제거하고 긴 문맥 추론 성능을 개선한 사례 분석.#SGLang#LLM#Optimization#Python#Performance2026년 6월 14일댓글 수 로딩 중
[sglang] SGLang, GPU 간 VAE 디코딩 최적화를 통한 이미지 생성 속도 향상SGLang의 최신 PR은 VAE 디코딩 과정을 최적화하여 이미지 생성 속도를 크게 향상시킵니다.#SGLang#AI#이미지 생성#최적화#VAE#병렬 처리#GPU2026년 6월 14일댓글 수 로딩 중
[sglang] [SGLang] VAE 병렬 디코딩 최적화: CFG 병렬화와의 시너지 분석SGLang에서 CFG 병렬화 시 VAE 디코딩을 모든 Rank가 참여하도록 개선하여 디코딩 속도를 31% 향상시킨 사례를 분석합니다.#Diffusion#SGLang#VAE#Parallel Computing#Optimization2026년 6월 13일댓글 수 로딩 중
[sglang] SGLang PD-Disaggregation 최적화: Mori 백엔드에서의 증분 KV 전송 구현SGLang의 PD-Disaggregation 환경에서 Mori 전송 백엔드와 Radix Cache를 연동하여 중복 KV 전송을 제거하고 TTFT를 20% 이상 개선했습니다.#SGLang#LLM#KV-Cache#Optimization#Distributed-Systems2026년 6월 13일댓글 수 로딩 중
[sglang] Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화하는 PR 분석#Apple Silicon#MLX#MoE#Optimization#SGLang2026년 6월 13일댓글 수 로딩 중
[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.#SGLang#GPU Optimization#FP8 Quantization#Deep Learning Inference#Cutlass#Performance Tuning2026년 6월 12일댓글 수 로딩 중
[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.#SGLang#Diffusion#FP8#GEMM#Optimization#CUDA2026년 6월 11일댓글 수 로딩 중
[sglang] SGLang에서 Qwen3-Next FP8 MoE 최적화: H200을 위한 Shared-Expert FusionH200 환경에서 Qwen3-Next FP8 MoE 모델의 성능을 극대화하기 위한 Shared-Expert Fusion 및 Triton 커널 최적화 분석.#SGLang#LLM#MoE#FP8#Triton#H2002026년 6월 11일댓글 수 로딩 중
[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.#SGLang#DeepSeek#LLM#Optimization#DistributedInference2026년 6월 10일댓글 수 로딩 중
[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.#SGLang#DeepLearning#Optimization#VAE#CUDA2026년 6월 9일댓글 수 로딩 중
[sglang] SGLang의 Spectral Progressive Diffusion 도입: 추론 속도 최대 2.78배 향상Transformer의 O(n²) 연산 비용을 혁신적으로 줄이는 Spectral Progressive Diffusion 기술 분석#SGLang#Diffusion#Optimization#Transformer#GPU2026년 6월 8일댓글 수 로딩 중
[sglang] AMD MI300에서의 GPT-OSS 120B 추론 성능 최적화: 새로운 KV 캐시 레이아웃과 커널 통합AMD GPU에서 GPT-OSS 120B 모델의 추론 속도를 15% 이상 향상시키는 최적화 방안을 분석합니다.#AMD#ROCm#SGLang#GPT-OSS#성능 최적화#KV Cache#Attention Kernel2026년 6월 8일댓글 수 로딩 중
[sglang] SGLang의 Ideogram4 추론 성능 최적화: Denoising 루프 내 오버헤드 제거Ideogram4 모델의 Denoising 루프에서 반복적으로 수행되던 마스크 메타데이터 생성 및 스케줄 계산을 사전 연산으로 최적화하여 성능을 개선했습니다.#SGLang#Diffusion#Optimization#Performance#Ideogram42026년 6월 7일댓글 수 로딩 중
[sglang] [SGLang] LingBot 실시간 서빙 최적화: 카메라 컨디셔닝 캐싱과 전송 프로토콜 개선LingBot의 실시간 지연시간을 10% 이상 단축시킨 카메라 컨디셔닝 캐싱 및 전송 레이어 최적화 기법을 살펴봅니다.#SGLang#Diffusion#Optimization#Realtime#PyTorch#Performance2026년 6월 5일댓글 수 로딩 중
[sglang] DeepSeek V4의 Prefill 성능을 1.35배 향상시킨 FlashAttention 최적화DeepSeek V4 모델의 Prefill 단계 성능을 획기적으로 개선한 FlashAttention 최적화 분석#AI#LLM#Performance Optimization#FlashAttention#DeepSeek V4#SGLang2026년 6월 3일댓글 수 로딩 중
[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.#SGLang#LLM#KV-Cache#Optimization#Distributed-Systems2026년 6월 2일댓글 수 로딩 중
[sglang] SGLang NIXL HiCache 리팩토링 및 O_DIRECT 지원 추가: 성능 향상과 안정성 강화SGLang의 NIXL HiCache 커넥터 리팩토링 및 O_DIRECT 지원 추가로 I/O 성능 향상 및 안정성 개선.#SGLang#NIXL#HiCache#O_DIRECT#성능 최적화#KV Cache2026년 6월 1일댓글 수 로딩 중
[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.#SGLang#CUDA#JIT#LLM#KV-Cache2026년 5월 31일댓글 수 로딩 중
[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.#SGLang#LLM#Scheduler#Optimization#CUDA2026년 5월 30일댓글 수 로딩 중
[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.#SGLang#CUDA#KernelOptimization#Vectorization#H2002026년 5월 30일댓글 수 로딩 중
[sglang] [SGLang] Blackwell(B200)에서 Diffusion Attention 성능을 7배 끌어올리는 Triton 커널 최적화 분석PyTorch SDPA의 마스크 처리 한계를 Triton 커널 퓨전과 Varlen FlashAttention으로 극복하여 B200에서 최대 21%의 성능 향상을 달성했습니다.#Triton#FlashAttention#Diffusion#CUDA#Performance Optimization#SGLang2026년 5월 28일댓글 수 로딩 중
[sglang] 성능 최적화의 함정: DeepSeek-V3.2 정확도 붕괴를 막기 위한 SGLang의 긴급 롤백 분석EAGLE 드래프트 모델에서 Softmax를 생략하는 최적화가 DeepSeek-V3.2 MTP 모델의 정확도를 96%나 떨어뜨린 이유와 그 해결책을 분석합니다.#SGLang#Speculative Decoding#DeepSeek-V3#Performance Optimization#LLM Inference2026년 5월 26일댓글 수 로딩 중
[sglang] SGLang EAGLE 디코딩 최적화: 불필요한 Softmax 연산 제거로 성능 향상SGLang EAGLE 디코딩에서 topk=1일 때 불필요한 Softmax 연산을 제거하여 성능을 개선했습니다.#SGLang#EAGLE#Speculative Decoding#Performance Optimization#Softmax#Top-k Sampling2026년 5월 25일댓글 수 로딩 중
[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.#SGLang#Diffusion#Optimization#LLM#Inference2026년 5월 25일댓글 수 로딩 중
[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.#SGLang#MoE#CUDA#Kernel Optimization#LLM2026년 5월 25일댓글 수 로딩 중
[sglang] [VLM 성능 최적화] Qwen-VL의 자잘한 H2D 오버헤드 줄이기: 단일 대형 전송으로의 전환Qwen-VL 모델에서 발생하는 빈번한 소규모 Host-to-Device(H2D) 전송을 통합하고, 불필요한 CPU 동기화를 제거하여 멀티모달 추론 성능을 개선한 사례를 분석합니다.#VLM#Qwen-VL#CUDA#Performance-Optimization#PyTorch#SGLang2026년 5월 24일댓글 수 로딩 중
[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.#SGLang#VLM#CUDA#Optimization#Performance2026년 5월 24일댓글 수 로딩 중
[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.#SGLang#성능 최적화#딥러닝#컴퓨터 비전#LLM2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.#SGLang#torch.compile#MUSA#CUDA#Optimization2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.#SGLang#Optimization#VAE#bf16#MemoryEfficiency2026년 5월 16일댓글 수 로딩 중
[sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상LTX2 스플릿 로터리 커널에서 헤드 배치 처리를 도입하여 성능을 2배 향상시킨 코드 최적화 분석.#Triton#Performance Optimization#LLM Kernel#RoPE#SGLang2026년 5월 16일댓글 수 로딩 중
[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.#SGLang#CUDA#Triton#LLM#Optimization#TMA2026년 5월 15일댓글 수 로딩 중
[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.#SGLang#LLM#NPU#Optimization#Memory Management2026년 5월 15일댓글 수 로딩 중
[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.#NPU#성능 최적화#딥러닝#LLM#SGLang2026년 5월 12일댓글 수 로딩 중
[sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입NPU 환경에서 Shared Expert와 Routed Expert 연산을 독립적인 스트림으로 분리하여 MoE 모델의 처리량을 11% 이상 향상시켰습니다.#SGLang#NPU#MoE#Performance Optimization#Deep Learning2026년 5월 11일댓글 수 로딩 중
[sglang] SGLang의 Breakable CUDA Graph 최적화: 배치 사이즈 제한 극복하기SGLang에서 CUDA Graph의 배치 사이즈 제약을 해결하고, 유연한 추론을 가능하게 하는 아키텍처 개선 분석.#SGLang#CUDA Graph#LLM#Inference Optimization#PyTorch2026년 5월 11일댓글 수 로딩 중
[sglang] SGLang의 MHC 파이프라인 최적화: 커널 퓨전과 DeepGemm 도입MHC 파이프라인에서 커널 퓨전과 DeepGemm을 활용해 연산 효율을 극대화하고 HBM 접근을 최소화하여 성능을 개선했습니다.#SGLang#CUDA#Triton#DeepGemm#Optimization2026년 5월 10일댓글 수 로딩 중
[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.#SGLang#FP4#GEMM#CUDA#CuTe#FlashInfer2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.#SGLang#Triton#DeepSeek#MoE#PerformanceOptimization2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: PDL 도입과 안전한 CUDA 동기화로 DSV3.2/GLM-5 가속하기PDL(Programmatic Dependency Launch) 도입과 CUDA 커널의 메모리 배리어 수정을 통해 추론 지연 시간을 개선하고 안정성을 확보했습니다.#CUDA#SGLang#Performance Optimization#LLM Inference#Triton2026년 5월 9일댓글 수 로딩 중
[sglang] [AMD/ROCm] Temporal Unfolding을 통한 VAE Conv3D 성능 최적화 분석ROCm 환경에서 VAE의 CausalConv3d를 수학적으로 동일한 Batched Conv2D로 변환하여 3.6%의 성능 향상을 달성한 기법을 소개합니다.#AMD#ROCm#Deep Learning#Optimization#SGLang#PyTorch2026년 5월 8일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.#AMD#ROCm#FP8#MLA#SGLang#Optimization2026년 5월 8일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 RMSNorm 최적화 - Triton에서 aiter 커널로 전환SGLang에서 ROCm 환경의 RMSNorm 성능을 aiter 커널로 교체하여 30% 이상 개선했습니다.#SGLang#ROCm#RMSNorm#aiter#성능 최적화#HIP#GPU 프로그래밍2026년 5월 8일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중
[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석#SGLang#LLM#KV-Cache#Optimization#HiCache2026년 5월 6일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.#DeepSeek-V4#AMD#ROCm#SGLang#Aiter#Performance Optimization2026년 5월 4일댓글 수 로딩 중
[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.#SGLang#LLM#Caching#Performance#RadixTree2026년 5월 3일댓글 수 로딩 중
[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.#SGLang#NPU#LLM#Optimization#Quantization2026년 5월 2일댓글 수 로딩 중
[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석#LLM#SGLang#Inference Optimization#KV Cache#Disaggregation#Performance2026년 5월 1일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.#SGLang#Triton#ROCm#Performance Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.#SGLang#MoE#AMD GPU#최적화#성능#AIter#GPU Kernel2026년 4월 25일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.#AMD GPU#FP8#Triton Kernel#KV Cache#Optimization#SGLang2026년 4월 25일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.#SGLang#성능 최적화#비동기 프로그래밍#SSE#Python#메시지큐#Pydantic#msgspec2026년 4월 22일댓글 수 로딩 중
[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.#SGLang#Diffusion Models#RL#Optimization#Performance#API2026년 4월 15일댓글 수 로딩 중
[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.#Triton#MoE#Qwen3.5#Kernel-Fusion#SGLang#AMD2026년 4월 15일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.#SGLang#PyTorch Inductor#FP8#Kernel Fusion#LLM Optimization2026년 4월 14일댓글 수 로딩 중
[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.#SGLang#Intel GPU#XPU#MoE#GPT-OSS#Deep Learning Optimization2026년 4월 13일댓글 수 로딩 중
[sglang] SGLang 토크나이저 매니저: O(n²) 복사 비용 제거를 통한 스트리밍 성능 최적화SGLang의 토크나이저 매니저에서 O(n²) 복사 비용을 제거하여 스트리밍 성능을 획기적으로 개선했습니다.#SGLang#성능 최적화#토크나이저#스트리밍#Python#O(n^2)2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.#SGLang#LLM#AMD#ROCm#PerformanceOptimization2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.#SGLang#AMD#ROCm#AllReduce#Optimization#LLM2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.#SGLang#AMD#ROCm#FP8#KernelFusion#LLM2026년 4월 11일댓글 수 로딩 중
[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.#SGLang#DeepSeek#MoE#DeepEP#LLM Inference2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.#SGLang#AMD#ROCm#Performance Optimization#LayerNorm2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.#SGLang#AMD#ROCm#FP8#LLM#CI/CD2026년 4월 8일댓글 수 로딩 중
[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.#SGLang#NIXL#KV Cache#Disaggregation#TP Heterogeneous#Optimization2026년 4월 7일댓글 수 로딩 중
[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.#SGLang#Speculative Decoding#C++#Performance Optimization#Trie2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.#SGLang#Ngram#Speculative Decoding#Suffix Automaton#성능 최적화#LLM#Python#C++2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.#SGLang#DeepSeek#LLM#Optimization#Inference2026년 4월 5일댓글 수 로딩 중
[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.#SGLang#Diffusion#NVFP4#CUTLASS#Performance2026년 4월 4일댓글 수 로딩 중
[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.#VLM#Optimization#SGLang#Multimodal#Caching#Performance2026년 4월 4일댓글 수 로딩 중
[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.#SGLang#FlashAttention4#SpeculativeDecoding#LLM#Optimization2026년 4월 4일댓글 수 로딩 중
[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.#SGLang#DeepSeekV3#FlashInfer#GEMM#최적화#벤치마킹#Blackwell#GPU2026년 4월 4일댓글 수 로딩 중
[sglang] SGLang 스케줄러: 사전 생성 전용 배치 병합 시 is_prefill_only 플래그 로직 개선사전 생성 전용 배치와 일반 생성 배치가 병합될 때 발생하는 is_prefill_only 플래그 오류를 수정하여 메모리 누수를 방지합니다.#SGLang#스케줄러#최적화#메모리 누수#배치 처리2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.#SGLang#FlashInfer#TRT-LLM#MoE#FP8#최적화#성능#MiniMax-M2.52026년 4월 2일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[sglang] GSM8K 평가를 Chat API 기반으로 통합GSM8K 평가 경로를 few-shot 전용 모듈에서 Chat API 기반 simple_eval로 통합하여 CI 회귀 테스트 일관성 확보#SGLang#Evaluation#GSM8K#Testing#Refactoring2026년 4월 2일댓글 수 로딩 중
[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경#SGLang#TRT-LLM#Blackwell#DeepSeek2026년 4월 2일댓글 수 로딩 중
[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정Prefill-Decode 분리 환경에서 device/host/storage별 캐시 히트 통계가 올바르게 전달되도록 수정#SGLang#HiCache#Disaggregation#Cache2026년 4월 2일댓글 수 로딩 중
[sglang] Ngram Corpus를 Torch cpp_extension에서 TVM FFI로 마이그레이션Speculative decoding의 ngram corpus 모듈을 torch cpp_extension에서 TVM FFI jit_kernel 기반으로 전환하여 빌드 의존성을 줄이고 JIT 컴파일 경로를 통일#SGLang#TVM FFI#JIT Kernel#Speculative Decoding2026년 4월 2일댓글 수 로딩 중
[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.#SGLang#HiCache#Memory Leak#Bug Fix#PyTorch#Tensor2026년 4월 2일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.#SGLang#Ascend NPU#Ring-SP#Performance Optimization#Diffusion Models2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[sglang] Multi-GPU VLM 서빙에서 ShmPointerMMData broadcast race condition 수정Multi-GPU VLM 서빙 시 shared memory 세그먼트의 broadcast race condition을 barrier로 해결#SGLang#VLM#Multi-GPU#Race Condition#Bug Fix2026년 4월 1일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중
[sglang] HiRadixCache에서 TTL 기반 hard pin 기능 제거HiRadixCache의 TTL 기반 prefix pinning 기능 전체를 revert하여 코드 복잡도를 줄이고 캐시 관리를 단순화#SGLang#Cache#HiRadixCache#Revert2026년 4월 1일댓글 수 로딩 중
[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가#SGLang#NPU#Ascend#Ring-SP#Benchmark2026년 4월 1일댓글 수 로딩 중
[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임#SGLang#JIT Kernel#CUDA#RoPE#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] run_eval에 latency 및 throughput 메트릭 추가평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능#SGLang#Evaluation#Metrics#Throughput2026년 4월 1일댓글 수 로딩 중
[sglang] CI에 네트워크 타임아웃 추가 및 러너별 동적 병렬도 설정테스트 네트워크 요청에 타임아웃을 추가하고, 5090/2-GPU 러너에 맞는 동적 max-parallel 값을 도입#SGLang#CI/CD#GitHub Actions#Testing2026년 4월 1일댓글 수 로딩 중
[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.#SGLang#sgl-kernel#JIT#AOT#Cleanup#CUDA#C++2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.#SGLang#CUDA Graph#Sliding Window Attention#성능 최적화#LLM 추론2026년 3월 31일댓글 수 로딩 중
[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.#SGLang#NPU#Ascend#Memory Management#Bug Fix2026년 3월 31일댓글 수 로딩 중
[sglang] DeepEP Low Latency FP8 Dispatch 변경 revertDeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보#SGLang#DeepEP#MoE#FP8#Revert2026년 3월 31일댓글 수 로딩 중
[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결#SGLang#CI/CD#Performance#NVIDIA2026년 3월 31일댓글 수 로딩 중
[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결#SGLang#AMD#ROCm#MoE#GEMM2026년 3월 31일댓글 수 로딩 중
[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.#SGLang#Testing#JIT Compilation#Multiprocessing#All Reduce#CUDA2026년 3월 31일댓글 수 로딩 중
[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.#SGLang#CI#FlashInfer#MXFP8#Quantization#Testing2026년 3월 30일댓글 수 로딩 중
[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.#SGLang#Qwen3.5#MoE#Pipeline Parallelism#Mamba#Bug Fix2026년 3월 30일댓글 수 로딩 중
[sglang] Dumper 디버그 유틸리티 리팩토링: 설정 구조 개선과 Non-intrusive 모드 도입SGLang의 dumper.py를 upstream main에서 동기화하며 설정 클래스 구조 개선, CLI key=value 파싱 지원, non-intrusive 모드 등을 추가한 대규모 리팩토링 분석.#SGLang#Debug#Refactoring#Python#LLM Inference2026년 3월 30일댓글 수 로딩 중
[SGLang] Mamba 캐시 누수 수정: adder 실패 시 pool index 회수요청 추가 실패 시 할당된 mamba_pool_idx를 해제하지 않아 발생하는 메모리 누수를 수정한다#SGLang#Mamba#Bug Fix#Memory Leak2026년 3월 30일댓글 수 로딩 중
[sglang] 미사용 BatchMultimodalOutput/DecodeReq 제거로 코드베이스 정리SGLang에서 사용되지 않는 BatchMultimodalOutput과 BatchMultimodalDecodeReq 데이터클래스를 제거하여 81줄의 dead code를 정리한 클린업 분석.#SGLang#Cleanup#Dead Code#Python#LLM Inference2026년 3월 29일댓글 수 로딩 중
[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다#SGLang#CUDA IPC#Multimodal#Performance2026년 3월 29일댓글 수 로딩 중
[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.#SGLang#CI#Benchmark#GB300#Blackwell#NeMo Skills#VLM2026년 3월 29일댓글 수 로딩 중
[SGLang] GDN의 kkt + solve_tril을 하나의 Triton 커널로 퓨전Gated Delta Network의 K@K^T 계산과 삼각 행렬 풀이를 단일 Triton 커널로 합쳐 HBM 왕복을 제거한다#SGLang#Triton#Kernel Fusion#Linear Attention2026년 3월 29일댓글 수 로딩 중
[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.#SGLang#Python GC#Performance Tuning#Memory Management#Server Args2026년 3월 27일댓글 수 로딩 중
[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrapSGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.#SGLang#VLM#Shared Memory#Multimodal#Optimization#IPC2026년 3월 27일댓글 수 로딩 중
[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.#SGLang#CI#JIT Kernel#Testing#CUDA2026년 3월 27일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중
[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[sglang] flush_cache 단순화: 동시 요청 거부와 클라이언트 재시도 제거SGLang의 flush_cache를 Deque 기반 다중 요청 큐에서 Optional 단일 요청으로 단순화하고, 서버 측 timeout과 명확한 에러 메시지를 도입한 리팩토링 분석.#SGLang#Cache Management#API Design#Simplification#Concurrency2026년 3월 26일댓글 수 로딩 중
[sglang] CI 버그 수정: /rerun-ut 동시 실행 시 중복 워크플로우 URL 문제 해결SGLang CI에서 /rerun-ut 커맨드를 동시에 여러 개 실행할 때 잘못된 워크플로우 URL이 게시되는 버그를 run-name에 test_command를 포함시켜 수정한 분석.#SGLang#CI#GitHub Actions#Bug Fix#Workflow2026년 3월 26일댓글 수 로딩 중
[SGLang] flush_cache API에 timeout 파라미터 추가HiCache 비동기 작업 중 캐시 flush 실패를 방지하기 위해 대기 시간을 설정할 수 있는 timeout 파라미터를 도입한다#SGLang#API#Cache Management#HiCache2026년 3월 26일댓글 수 로딩 중
[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.#SGLang#NPU#CI#GitHub Actions#Caching#Ascend2026년 3월 26일댓글 수 로딩 중
[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.#SGLang#sgl-kernel#Python Packaging#Wheel#CUDA#CI/CD2026년 3월 26일댓글 수 로딩 중
[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.#SGLang#AMD#ROCm#Bug Fix#Lazy Import#Linear Attention2026년 3월 25일댓글 수 로딩 중
[SGLang] Diffusion JIT 커널 테스트 레이아웃 리팩터링 및 CI 트리거 정밀화JIT 커널 테스트/벤치마크를 diffusion/ 서브폴더로 이동하고 CI 트리거를 관련 경로에만 반응하도록 좁힌다#SGLang#CI/CD#Testing#Refactoring2026년 3월 26일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[SGLang] Diffusion Triton Rotary Embedding 다중 헤드 병렬 처리 최적화Triton rotary embedding 커널을 토큰당 여러 헤드를 동시에 처리하도록 재구성하여 커널 launch 횟수를 줄인다#SGLang#Triton#Diffusion#Rotary Embedding2026년 3월 26일댓글 수 로딩 중
[SGLang] wait-for-jobs에 ETag conditional request 도입으로 API rate limit 절약GitHub Actions의 wait-for-jobs에서 ETag 기반 조건부 요청을 사용하여 304 Not Modified 응답 시 rate limit을 소비하지 않도록 개선한다#SGLang#CI/CD#GitHub Actions#Rate Limiting2026년 3월 25일댓글 수 로딩 중
[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정Qwen3.5 HiCache 테스트를 별도 파일로 분리하고 max_tokens를 16000으로 늘려 CI 안정성을 확보한다#SGLang#CI#Testing#HiCache2026년 3월 25일댓글 수 로딩 중
[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.#Ray#Python#Performance#SGLang#LLM Serving2026년 3월 24일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.#CUDA#CUTLASS#GEMM#FP8#SGLang#SM1202026년 3월 22일댓글 수 로딩 중
[논문리뷰] Fish Audio S2 Technical Report본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multi-speaker#Multi-turn#Instruction Following#Dual-Autoregressive#Reinforcement Learning (RL)#Data Pipeline#SGLang2026년 3월 10일댓글 수 로딩 중
[sglang] SGLang, Helios 모델 통합으로 실시간 장편 비디오 생성의 새로운 지평을 열다SGLang이 Helios 모델을 통합하여 실시간 장편 비디오 생성 성능을 혁신적으로 개선했습니다.#SGLang#Helios#비디오 생성#AI 모델#최적화2026년 3월 4일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[SGLang] MoE 모델을 위한 Single Batch Overlap 기법Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다#SGLang#MoE#GPU Optimization#Inference2025년 12월 3일댓글 수 로딩 중
[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다#CUDA Graph#torch.compile#LLM Inference#SGLang2025년 10월 12일댓글 수 로딩 중
[SGLang] DeepSeek V3.2 지원 추가SGLang에 DeepSeek V3.2 모델과 Native Sparse Attention(NSA) 백엔드를 추가한다#SGLang#DeepSeek#Sparse Attention#Model Support2025년 10월 6일댓글 수 로딩 중