최신 포스트

[sglang] SGLang 토크나이저 매니저: O(n²) 복사 비용 제거를 통한 스트리밍 성능 최적화

SGLang의 토크나이저 매니저에서 O(n²) 복사 비용을 제거하여 스트리밍 성능을 획기적으로 개선했습니다.

#SGLang #성능 최적화 #토크나이저 #스트리밍 #Python #O(n^2)

2026년 4월 12일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일

[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석

vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.

#vLLM #Quantization #MXFP8 #MoE #Performance-Optimization

2026년 4월 12일

[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략

GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.

#SGLang #LLM #AMD #ROCm #PerformanceOptimization

2026년 4월 12일

[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선

AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.

#SGLang #AMD #ROCm #AllReduce #Optimization #LLM

2026년 4월 12일

[SGLang] MoE 라우팅: 토큰에서 전문가로의 배분 알고리즘

SGLang의 MoE 라우팅 알고리즘을 분석한다. Top-K 게이트 선택, 로드 밸런싱, 토큰 드롭 전략, Expert Choice vs Token Choice 비교를 코드와 함께 살펴본다.

#sglang #MoE Routing #Top-K Gate #Load Balancing

2026년 4월 12일

[SGLang] Expert Parallel MoE: 분산 전문가 레이어 구현

SGLang의 Expert Parallel MoE를 분석한다. 전문가를 여러 GPU에 분산하는 EP 구조, All-to-All 통신, 로컬/리모트 전문가 라우팅을 코드와 함께 살펴본다.

#sglang #Expert Parallelism #EP-MoE #All-to-All #Distributed

2026년 4월 12일

[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산

SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.

#sglang #CUTLASS #MoE #GEMM Kernel #NVIDIA

2026년 4월 12일

[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합

SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.

#sglang #Fused MoE #Triton #Expert Fusion #GEMM

2026년 4월 12일

[SGLang] 하드웨어별 양자화 튜닝: B200, H100, MI300X 최적 설정

SGLang의 하드웨어별 양자화 설정을 분석한다. NVIDIA B200, H100, AMD MI300X 등 GPU별 최적 양자화 파라미터, 하드웨어 특성에 맞춘 커널 선택을 코드와 함께 비교한다.

#sglang #Hardware Config #B200 #H100 #MI300X #Quantization Tuning

2026년 4월 12일

[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략

SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.

#sglang #MoE Quantization #Expert-wise #Fused MoE

2026년 4월 12일

[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴

SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.

#sglang #Mixed Precision #W4A8 #W8A8 #Quantization Schemes

2026년 4월 12일

[SGLang] Compressed Tensors: 통합 양자화 프레임워크

SGLang의 Compressed Tensors 프레임워크를 분석한다. 다양한 양자화 방식을 통합하는 프레임워크 설계, 스킴 자동 선택, 가중치 로딩 파이프라인을 코드와 함께 살펴본다.

#sglang #Compressed Tensors #Quantization Framework #Unified

2026년 4월 12일

[SGLang] AutoRound: 자동 라운딩 최적화 양자화

SGLang의 AutoRound 양자화를 분석한다. 라운딩 오류를 최적화하는 자동 보정 기법, 기존 RTN 대비 정확도 향상을 코드와 함께 살펴본다.

#sglang #AutoRound #Rounding Optimization #Calibration

2026년 4월 12일

[SGLang] BitsAndBytes: QLoRA와 NF4 동적 양자화

SGLang의 BitsAndBytes 통합을 분석한다. NormalFloat4(NF4) 양자화의 원리, QLoRA 추론 지원, 동적 양자화/역양자화 과정을 코드와 함께 살펴본다.

#sglang #BitsAndBytes #QLoRA #NF4 #Dynamic Quantization

2026년 4월 12일

[SGLang] Block-wise INT8: 블록 단위 정수 양자화

SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.

#sglang #INT8 #Block-wise #Integer Quantization

2026년 4월 12일

[SGLang] AWQ: 활성화 인식 가중치 양자화

SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.

#sglang #AWQ #Activation-aware #Weight Quantization

2026년 4월 12일

[SGLang] FP4: 4비트 부동소수점 양자화 (NVIDIA NF4)

SGLang의 FP4 양자화를 분석한다. NVIDIA NF4 포맷, 4비트 극저정밀도에서의 정확도 유지 전략, FP8 대비 추가 메모리 절감을 코드와 함께 살펴본다.

#sglang #FP4 #NF4 #4-bit Quantization

2026년 4월 12일

[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능

SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.

#sglang #FP8 #Quantization #8-bit #E4M3

2026년 4월 12일

[SGLang] Warmup: GPU 초기화와 JIT 사전 컴파일

SGLang의 Warmup 시스템을 분석한다. 서버 시작 시 GPU를 예열하는 과정, CUDA Graph 캡처, JIT 커널 사전 컴파일, 첫 요청 지연 제거를 코드와 함께 살펴본다.

#sglang #Warmup #JIT Compilation #GPU Initialization

2026년 4월 12일