#sglang

145개의 포스트

[sglang] sglang, 멀티모달 모델 인코더 병렬 처리 최적화: 전체 복제본 활용으로 성능 향상

sglang PR 분석: 멀티모달 모델의 텍스트/이미지 인코더 병렬 처리 방식을 개선하여 전체 GPU 복제본을 활용하고 성능을 극대화합니다.

#sglang #병렬 처리 #최적화 #멀티모달 #딥러닝

2026년 7월 6일

[sglang] LTX-2 모델 성능 최적화: NPU 및 GPU에서의 지연 시간 단축 분석

LTX-2 모델의 E2E 지연 시간을 NPU에서 27%, GPU에서 3% 단축한 코드 변경 분석.

#sglang #LTX-2 #성능 최적화 #NPU #GPU #RMSNorm #FlashAttention

2026년 6월 19일

[sglang] UniPC 스케줄러에서 GPU 동기화 제거를 통한 성능 최적화 분석

UniPC 스케줄러의 GPU 동기화 오버헤드를 제거하여 성능을 개선한 코드 변경 분석.

#PyTorch #Optimization #GPU #UniPC Scheduler #sglang

2026년 6월 6일

[sglang] 실시간 RGB 전송 속도 향상을 위한 최적화 분석

sglang의 실시간 RGB 전송에서 불필요한 압축을 제거하여 성능을 22.4% 향상시킨 PR 분석

#sglang #최적화 #성능 개선 #실시간 전송 #RGB #Gzip

2026년 6월 4일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화

ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.

#sglang #ROCm #MXFP4 #Attention #Optimization #Performance #Deepseek

2026년 5월 29일

[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화

sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.

#PyTorch #torch.compile #GPU Optimization #LLM Inference #Kernel Fusion #sglang

2026년 5월 23일

[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서

sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석

#sglang #diffusion #torch.compile #optimization #performance #AI

2026년 5월 15일

[sglang] NixlKVManager 성능 향상: 비동기 및 멀티스레드 KV 전송 도입

NixlKVManager의 KV 전송 병목 현상을 비동기 및 멀티스레드 방식으로 해결하여 성능을 4배 향상시켰습니다.

#sglang #Nixl #성능 최적화 #비동기 처리 #멀티스레딩 #분산 추론

2026년 5월 7일

[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출

LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.

#sglang #optimization #performance #deep learning #denoising #attention

2026년 5월 3일

[sglang] sglang, AMD MI35x 환경에서 GLM-5-MXFP4 모델의 성능 및 정확도 테스트 추가

sglang 레포지토리에서 AMD MI35x GPU 환경에 GLM-5-MXFP4 모델의 정확도 및 성능 테스트를 추가하고 기존 테스트를 정리하는 PR을 분석합니다.

#sglang #AMD #MI35x #GLM-5-MXFP4 #CI #테스트 자동화 #성능 최적화

2026년 4월 15일

[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화

SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.

#sglang #Hardware Backend #MLX #NPU #XPU #Abstraction

2026년 4월 15일

[SGLang] Reasoning & Code Completion Parser: 추론 및 코드 파서

SGLang의 Reasoning Parser와 Code Completion Parser를 분석한다. Chain-of-Thought 추론 출력 파싱, 코드 완성 포맷 처리, 대화 관리를 코드와 함께 살펴본다.

#sglang #Reasoning Parser #Code Completion #Conversation

2026년 4월 14일

[SGLang] Debug Utils: 텐서 비교, 스케줄 시뮬레이터

SGLang의 디버그 유틸리티를 분석한다. 텐서 값 비교기(Comparator), 스케줄 시뮬레이터, 토큰별 시각화 도구 등 개발/디버깅 인프라를 코드와 함께 살펴본다.

#sglang #Debug Utils #Tensor Comparator #Schedule Simulator

2026년 4월 14일

[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라

SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.

#sglang #Observability #Metrics #Tracing #Profiling

2026년 4월 14일

[SGLang] sgl-kernel: 커스텀 C++/CUDA 커널 라이브러리

SGLang의 sgl-kernel 라이브러리를 분석한다. 커스텀 C++/CUDA 커널의 구조, AllReduce/Attention/Quantization/Sampling 등 주요 커널 카테고리를 코드와 함께 살펴본다.

#sglang #sgl-kernel #CUDA Kernel #C++ Extension

2026년 4월 14일

[SGLang] Server Args: 300+ 서버 인자 완전 가이드

SGLang의 ServerArgs를 분석한다. 300+ 서버 설정 인자를 카테고리별로 정리하고, 핵심 설정의 기본값과 튜닝 가이드를 코드와 함께 제공한다.

#sglang #Server Args #Configuration #Tuning Guide

2026년 4월 14일

[SGLang] Model Configuration 시스템: 모델 설정 관리

SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.

#sglang #Model Config #Configuration #HuggingFace

2026년 4월 14일

[SGLang] Batch Overlap: 연산-통신 오버랩 최적화

SGLang의 Batch Overlap을 분석한다. GPU 연산과 통신을 중첩하여 유휴 시간을 줄이는 전략, Single/Dual 배치 오버랩 모드를 코드와 함께 살펴본다.

#sglang #Batch Overlap #Compute-Communication #Pipeline

2026년 4월 14일

[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴

SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.

#sglang #Sparsity #QUEST #NSA #Sparse Pattern

2026년 4월 14일

[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리

SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.

#sglang #Deep GEMM #Matrix Multiplication #GEMM Optimization

2026년 4월 14일

[SGLang] RoPE 변형: 로타리 위치 인코딩의 다양한 구현

SGLang의 RoPE 구현을 분석한다. 기본 RoPE, NTK-aware Scaling, YaRN, Dynamic NTK 등 다양한 변형의 구현, 위치 인코딩이 긴 컨텍스트에 미치는 영향을 코드와 함께 살펴본다.

#sglang #RoPE #Rotary Position Encoding #Position Embedding

2026년 4월 14일

[SGLang] Activation Functions: SiLU, GELU 커스텀 구현

SGLang의 활성화 함수 구현을 분석한다. SiLU, GELU, SiLU-and-Mul 등 Fused 활성화 함수의 커스텀 구현, PyTorch 기본 대비 성능 향상을 코드와 함께 살펴본다.

#sglang #Activation #SiLU #GELU #Fused Operations

2026년 4월 14일

[SGLang] Linear Layer: 양자화 통합 선형 레이어의 설계

SGLang의 Linear Layer를 분석한다. 양자화 메서드를 투명하게 통합하는 선형 레이어 설계, ColumnParallel/RowParallel 분할, 가중치 로딩을 코드와 함께 살펴본다.

#sglang #Linear Layer #Quantization Integration #Tensor Parallel

2026년 4월 14일

[SGLang] Efficient Vision Sampling: 이미지 토큰 압축

SGLang의 Efficient Vision Sampling을 분석한다. 이미지 토큰 수를 줄여 추론 속도를 높이는 압축 전략, 정확도-효율 트레이드오프를 코드와 함께 살펴본다.

#sglang #EVS #Vision Sampling #Token Compression #Efficiency

2026년 4월 14일

[SGLang] ViT CUDA Graph: Vision Encoder 가속

SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.

#sglang #ViT #CUDA Graph #Vision Encoder #Acceleration

2026년 4월 14일

[SGLang] Audio 모델: Whisper, Qwen3-ASR, GLM-ASR 프로세서

SGLang의 Audio 모델 프로세서를 분석한다. Whisper, Qwen3-ASR, GLM-ASR 등 음성 모델의 오디오 전처리, 스펙트로그램 변환, 텍스트 출력을 코드와 함께 살펴본다.

#sglang #Audio Models #Whisper #Qwen3-ASR #Speech Processing

2026년 4월 14일

[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서

SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.

#sglang #Vision Language #CLIP #InternVL #LLaVA

2026년 4월 14일

[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합

SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.

#sglang #Multimodal #Vision #Audio #Video #Pipeline

2026년 4월 14일

[SGLang] Custom Logit Processor: 사용자 정의 로짓 처리

SGLang의 Custom Logit Processor를 분석한다. 사용자가 정의한 로짓 변환 함수를 서빙 시 적용하는 구조, 보안 제약, 배치 처리를 코드와 함께 살펴본다.

#sglang #Custom Logit Processor #User-defined #Logit Transformation

2026년 4월 14일

[SGLang] PenaltyLib: 반복/빈도/존재 페널티 구현

SGLang의 PenaltyLib를 분석한다. repetition_penalty, frequency_penalty, presence_penalty의 구현, 배치 단위 페널티 적용 최적화를 코드와 함께 살펴본다.

#sglang #PenaltyLib #Repetition Penalty #Frequency Penalty

2026년 4월 14일

[SGLang] Sampling Parameters: 전체 샘플링 파라미터 정리

SGLang의 전체 샘플링 파라미터를 분석한다. temperature, top_k, top_p, min_p, repetition_penalty 등 모든 파라미터의 역할과 상호작용을 코드와 함께 정리한다.

#sglang #Sampling Parameters #Temperature #Top-K #Top-P

2026년 4월 14일

[SGLang] Sampler: logits에서 토큰까지의 샘플링 파이프라인

SGLang의 Sampler를 분석한다. logits에서 최종 토큰을 선택하는 파이프라인, temperature/top-k/top-p 적용, 배치 샘플링 최적화를 코드와 함께 살펴본다.

#sglang #Sampler #Token Sampling #Top-K #Top-P

2026년 4월 14일

[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책

SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.

#sglang #LoRA Eviction #Adapter Cache #LRU #Memory Management

2026년 4월 14일

[SGLang] LoRA + MoE 융합: 어댑터와 전문가 혼합의 통합

SGLang의 LoRA+MoE 융합을 분석한다. MoE 모델에 LoRA 어댑터를 적용하는 구현, 전문가별 독립 어댑터, Fused MoE LoRA 커널을 코드와 함께 살펴본다.

#sglang #LoRA MoE #Expert Adapter #Fused Kernel

2026년 4월 14일

[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산

SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.

#sglang #LoRA Triton #SGMV #SGEMM #Kernel Optimization

2026년 4월 14일

[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교

SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.

#sglang #LoRA Backend #PyTorch #Triton #Chunked

2026년 4월 13일

[SGLang] LoRA Layers: QKV, Gate/Up 프로젝션 어댑터

SGLang의 LoRA Layer 구현을 분석한다. QKV Projection, Gate/Up Projection 등에 LoRA 어댑터를 적용하는 구조를 코드와 함께 살펴본다.

#sglang #LoRA Layers #QKV Projection #Adapter

2026년 4월 13일

[SGLang] LoRA Manager: 어댑터 라이프사이클 관리

SGLang의 LoRA Manager를 분석한다. 런타임 어댑터 로딩/언로딩, 멀티 LoRA 배칭, 어댑터 레지스트리 관리를 코드와 함께 살펴본다.

#sglang #LoRA Manager #Adapter Loading #Multi-LoRA

2026년 4월 13일

[SGLang] Staging Buffer: KV 캐시 전송 버퍼 관리

SGLang의 Staging Buffer를 분석한다. KV 캐시 전송을 위한 스테이징 버퍼 설계, 비동기 전송과의 연동, 메모리 풀 관리를 코드와 함께 살펴본다.

#sglang #Staging Buffer #Async Transfer #Buffer Management

2026년 4월 13일

[SGLang] Disaggregation 커넥터: Mooncake, NIXL, MORI 전송 엔진

SGLang의 Disaggregation 커넥터를 분석한다. Mooncake, NIXL, MORI 등 KV 캐시 전송 엔진의 구현, 각 커넥터의 특성 비교를 코드와 함께 살펴본다.

#sglang #Mooncake #NIXL #MORI #Transfer Engine

2026년 4월 13일

[SGLang] KV Cache Offloading: Decode 중 메모리 오프로딩

SGLang의 KV Cache Offloading을 분석한다. Decode 단계에서 GPU 메모리 부족 시 KV 캐시를 CPU로 오프로딩하는 전략을 코드와 함께 살펴본다.

#sglang #KV Offloading #CPU Offload #Memory Management

2026년 4월 13일

[SGLang] Disaggregated Decode 서버: 디코드 전용 서버 구현

SGLang의 Disaggregated Decode 서버를 분석한다. 디코드 전용 서버의 KV 캐시 수신, 토큰 생성 루프, Prefill 서버로부터의 상태 전달을 코드와 함께 살펴본다.

#sglang #Disaggregated Decode #Token Generation #Decode Server

2026년 4월 13일

[SGLang] Disaggregated Prefill 서버: 프리필 전용 서버 구현

SGLang의 Disaggregated Prefill 서버를 분석한다. 프리필 전용으로 최적화된 서버 구현, KV 캐시 생성 및 전송, Decode 서버와의 협조를 코드와 함께 살펴본다.

#sglang #Disaggregated Prefill #KV Transfer #Prefill Server

2026년 4월 13일

[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처

SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.

#sglang #Disaggregation #PD Separation #Prefill-Decode

2026년 4월 13일

[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터

SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.

#sglang #HPU #NPU #XPU #Hardware Communication

2026년 4월 13일

[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신

SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.

#sglang #Shared Memory #Broadcast #IPC #Low Latency

2026년 4월 13일

[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터

SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.

#sglang #Ray #Distributed Engine #Actor Pattern

2026년 4월 13일

[SGLang] Data Parallel Controller: 다중 인스턴스 조율

SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.

#sglang #Data Parallelism #Load Balancing #Multi-Instance

2026년 4월 13일

[SGLang] NCCL & MSCCL++: 집합 통신 라이브러리 통합

SGLang의 NCCL과 MSCCL++ 통합을 분석한다. NVIDIA NCCL의 래퍼 구현, Microsoft MSCCL++의 추가 최적화, 라이브러리 선택 전략을 코드와 함께 살펴본다.

#sglang #NCCL #MSCCL++#Collective Communication

2026년 4월 13일

[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신

SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.

#sglang #Custom AllReduce #Low Latency #Shared Memory

2026년 4월 13일

[SGLang] 통신 연산: AllReduce, Broadcast, AllGather 구현

SGLang의 분산 통신 연산을 분석한다. AllReduce, Broadcast, AllGather 등 집합 통신의 구현, 커스텀 올리듀스와의 연동을 코드와 함께 살펴본다.

#sglang #AllReduce #Broadcast #Collective Communication

2026년 4월 13일

[SGLang] Parallel State: TP/PP/DP/EP 병렬화 상태 관리

SGLang의 Parallel State를 분석한다. Tensor/Pipeline/Data/Expert 4종 병렬화의 프로세스 그룹 관리, 초기화 순서, 그룹 간 관계를 코드와 함께 살펴본다.

#sglang #Parallel State #Process Group #TP PP DP EP

2026년 4월 13일

[SGLang] Reasoner Grammar: 추론 체인 제약 생성

SGLang의 Reasoner Grammar를 분석한다. Chain-of-Thought 추론 과정에서 구조화된 출력을 제약하는 방식, 추론 단계와 응답 단계의 분리를 코드와 함께 살펴본다.

#sglang #Reasoner Grammar #Chain-of-Thought #Reasoning Constraint

2026년 4월 13일

[SGLang] LLGuidance: Microsoft의 문법 제약 백엔드

SGLang의 LLGuidance 백엔드를 분석한다. Microsoft의 LLGuidance 라이브러리 통합, XGrammar/Outlines 대비 차별점, 토큰 마스크 생성을 코드와 함께 살펴본다.

#sglang #LLGuidance #Microsoft #Grammar Backend

2026년 4월 13일

[SGLang] Outlines: FSM 기반 제약 생성과 Jump-Forward 최적화

SGLang의 Outlines 백엔드를 분석한다. Finite State Machine 기반 토큰 제약, Jump-Forward 최적화로 확정 토큰을 건너뛰는 기법을 코드와 함께 살펴본다.

#sglang #Outlines #FSM #Jump-Forward #Constrained Decoding

2026년 4월 13일

[SGLang] XGrammar: JSON/Regex 제약 백엔드

SGLang의 XGrammar 백엔드를 분석한다. JSON Schema와 Regex 패턴을 문법으로 변환하여 토큰 생성을 제약하는 구현, 비트마스크 기반 필터링을 코드와 함께 살펴본다.

#sglang #XGrammar #JSON Schema #Regex #Token Masking

2026년 4월 13일

[SGLang] Grammar Manager: 구조화된 출력 생성의 통합 관리

SGLang의 Grammar Manager를 분석한다. JSON Schema, Regex, EBNF 등 다양한 제약 조건을 통합 관리하는 구조, 백엔드 디스패치, 토큰 마스킹 과정을 코드와 함께 살펴본다.

#sglang #Grammar Manager #Structured Output #JSON Schema #Regex

2026년 4월 13일

[SGLang] Tree Search & Verification: 트리 기반 추측과 검증

SGLang의 트리 탐색과 검증 알고리즘을 분석한다. 후보 토큰을 트리 구조로 구성하여 병렬 검증하는 방식, 트리 구축 전략, acceptance 판정을 코드와 함께 살펴본다.

#sglang #Tree Search #Verification #Token Tree #Acceptance

2026년 4월 13일

[SGLang] EAGLE CUDA Graph: 드래프트 모델 가속

SGLang의 EAGLE CUDA Graph Runner를 분석한다. 드래프트 모델의 반복 실행을 CUDA Graph로 캡처하여 오버헤드를 제거하는 전략을 코드와 함께 살펴본다.

#sglang #EAGLE CUDA Graph #Draft Acceleration #Graph Capture

2026년 4월 13일

[SGLang] DFlash: Flash 기반 고속 드래프팅

SGLang의 DFlash를 분석한다. Flash Attention을 활용한 고속 드래프트 생성, 기존 EAGLE 대비 드래프팅 속도 향상을 코드와 함께 살펴본다.

#sglang #DFlash #Flash Draft #Fast Speculation

2026년 4월 12일

[SGLang] N-gram Draft: 모델 프리 투기적 디코딩

SGLang의 N-gram Draft를 분석한다. 별도 드래프트 모델 없이 N-gram 통계로 토큰을 추측하는 방식, 코퍼스 관리, 외부 코퍼스 지원을 코드와 함께 살펴본다.

#sglang #N-gram #Model-free Draft #Corpus

2026년 4월 12일

[SGLang] Multi-Layer EAGLE: 다계층 드래프트로 더 긴 추측

SGLang의 Multi-Layer EAGLE을 분석한다. 다계층 드래프트 모델로 더 긴 토큰 시퀀스를 추측하는 전략, 단일 계층 EAGLE 대비 향상을 코드와 함께 살펴본다.

#sglang #Multi-Layer EAGLE #Deep Draft #Extended Speculation

2026년 4월 12일

[SGLang] EAGLE v2: 개선된 드래프트 알고리즘

SGLang의 EAGLE v2를 분석한다. EAGLE v1 대비 개선점, 향상된 트리 구조, 더 높은 acceptance rate를 코드와 함께 살펴본다.

#sglang #EAGLE v2 #Improved Draft #Acceptance Rate

2026년 4월 12일

[SGLang] EAGLE: 은닉 상태 기반 드래프트 모델

SGLang의 EAGLE 구현을 분석한다. 타겟 모델의 은닉 상태를 활용한 드래프트 생성, 기존 독립 드래프트 모델 대비 정확도 향상, 트리 기반 검증을 코드와 함께 살펴본다.

#sglang #EAGLE #Draft Model #Hidden States #Speculative

2026년 4월 12일

[SGLang] Speculative Decoding 개요: 원리와 구현 아키텍처

SGLang의 Speculative Decoding 전체 아키텍처를 분석한다. 드래프트-검증 2단계 파이프라인의 원리, 기존 Autoregressive 대비 2-3x 속도 향상, SGLang의 구현 방식을 코드와 함께 살펴본다.

#sglang #Speculative Decoding #Draft-Verify #Acceleration

2026년 4월 12일

[SGLang] FlashInfer + TensorRT-LLM MoE: 하이브리드 MoE 커널

SGLang의 FlashInfer/TensorRT-LLM MoE를 분석한다. FlashInfer와 TensorRT-LLM 커널을 결합한 하이브리드 MoE 구현, 커널별 장단점 비교를 코드와 함께 살펴본다.

#sglang #FlashInfer MoE #TensorRT-LLM #Hybrid Kernel

2026년 4월 12일

[SGLang] EPLB: Expert-Parallel Load Balancing 알고리즘

SGLang의 EPLB를 분석한다. 전문가 병렬 환경에서의 부하 균형 알고리즘, DeepSeek 스타일 로드 밸런싱, 전문가 위치 추적과 재분배를 코드와 함께 살펴본다.

#sglang #EPLB #Load Balancing #Expert Distribution

2026년 4월 12일

[SGLang] Elastic Expert Parallelism: 동적 전문가 스케일링

SGLang의 Elastic EP를 분석한다. 부하에 따라 전문가를 동적으로 스케일링하는 탄력적 병렬화, 전문가 백업 관리, 장애 복구를 코드와 함께 살펴본다.

#sglang #Elastic EP #Dynamic Scaling #Expert Backup

2026년 4월 12일

[SGLang] MoE 라우팅: 토큰에서 전문가로의 배분 알고리즘

SGLang의 MoE 라우팅 알고리즘을 분석한다. Top-K 게이트 선택, 로드 밸런싱, 토큰 드롭 전략, Expert Choice vs Token Choice 비교를 코드와 함께 살펴본다.

#sglang #MoE Routing #Top-K Gate #Load Balancing

2026년 4월 12일

[SGLang] Expert Parallel MoE: 분산 전문가 레이어 구현

SGLang의 Expert Parallel MoE를 분석한다. 전문가를 여러 GPU에 분산하는 EP 구조, All-to-All 통신, 로컬/리모트 전문가 라우팅을 코드와 함께 살펴본다.

#sglang #Expert Parallelism #EP-MoE #All-to-All #Distributed

2026년 4월 12일

[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산

SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.

#sglang #CUTLASS #MoE #GEMM Kernel #NVIDIA

2026년 4월 12일

[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합

SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.

#sglang #Fused MoE #Triton #Expert Fusion #GEMM

2026년 4월 12일

[SGLang] 하드웨어별 양자화 튜닝: B200, H100, MI300X 최적 설정

SGLang의 하드웨어별 양자화 설정을 분석한다. NVIDIA B200, H100, AMD MI300X 등 GPU별 최적 양자화 파라미터, 하드웨어 특성에 맞춘 커널 선택을 코드와 함께 비교한다.

#sglang #Hardware Config #B200 #H100 #MI300X #Quantization Tuning

2026년 4월 12일

[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략

SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.

#sglang #MoE Quantization #Expert-wise #Fused MoE

2026년 4월 12일

[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴

SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.

#sglang #Mixed Precision #W4A8 #W8A8 #Quantization Schemes

2026년 4월 12일

[SGLang] Compressed Tensors: 통합 양자화 프레임워크

SGLang의 Compressed Tensors 프레임워크를 분석한다. 다양한 양자화 방식을 통합하는 프레임워크 설계, 스킴 자동 선택, 가중치 로딩 파이프라인을 코드와 함께 살펴본다.

#sglang #Compressed Tensors #Quantization Framework #Unified

2026년 4월 12일

[SGLang] AutoRound: 자동 라운딩 최적화 양자화

SGLang의 AutoRound 양자화를 분석한다. 라운딩 오류를 최적화하는 자동 보정 기법, 기존 RTN 대비 정확도 향상을 코드와 함께 살펴본다.

#sglang #AutoRound #Rounding Optimization #Calibration

2026년 4월 12일

[SGLang] BitsAndBytes: QLoRA와 NF4 동적 양자화

SGLang의 BitsAndBytes 통합을 분석한다. NormalFloat4(NF4) 양자화의 원리, QLoRA 추론 지원, 동적 양자화/역양자화 과정을 코드와 함께 살펴본다.

#sglang #BitsAndBytes #QLoRA #NF4 #Dynamic Quantization

2026년 4월 12일

[SGLang] Block-wise INT8: 블록 단위 정수 양자화

SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.

#sglang #INT8 #Block-wise #Integer Quantization

2026년 4월 12일

[SGLang] AWQ: 활성화 인식 가중치 양자화

SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.

#sglang #AWQ #Activation-aware #Weight Quantization

2026년 4월 12일

[SGLang] FP4: 4비트 부동소수점 양자화 (NVIDIA NF4)

SGLang의 FP4 양자화를 분석한다. NVIDIA NF4 포맷, 4비트 극저정밀도에서의 정확도 유지 전략, FP8 대비 추가 메모리 절감을 코드와 함께 살펴본다.

#sglang #FP4 #NF4 #4-bit Quantization

2026년 4월 12일

[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능

SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.

#sglang #FP8 #Quantization #8-bit #E4M3

2026년 4월 12일

[SGLang] Warmup: GPU 초기화와 JIT 사전 컴파일

SGLang의 Warmup 시스템을 분석한다. 서버 시작 시 GPU를 예열하는 과정, CUDA Graph 캡처, JIT 커널 사전 컴파일, 첫 요청 지연 제거를 코드와 함께 살펴본다.

#sglang #Warmup #JIT Compilation #GPU Initialization

2026년 4월 12일

[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합

SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #torch.compile #Inductor #Kernel Fusion #Compilation

2026년 4월 11일

[SGLang] Model Loader: 가중치 로딩 인프라와 최적화

SGLang의 Model Loader를 분석한다. Safetensors/PyTorch 가중치 로딩, 텐서 병렬 분산, 양자화 가중치 처리, 메모리 매핑 최적화를 코드와 함께 살펴본다.

#sglang #Model Loader #Weight Loading #Safetensors

2026년 4월 11일

[SGLang] Piecewise CUDA Graph: 분할 그래프 컴파일 전략

SGLang의 Piecewise CUDA Graph를 분석한다. 모델을 여러 조각으로 분할하여 CUDA Graph를 캡처하는 전략, 동적 형상 지원, 메모리 효율성을 코드와 함께 살펴본다.

#sglang #Piecewise CUDA Graph #Graph Compilation #Dynamic Shapes

2026년 4월 11일

[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거

SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.

#sglang #CUDA Graphs #Kernel Launch #GPU Optimization

2026년 4월 11일

[SGLang] ForwardBatch: ScheduleBatch에서 GPU 텐서로의 변환

SGLang의 ForwardBatch를 분석한다. CPU의 ScheduleBatch를 GPU 텐서로 변환하는 과정, Prefill/Decode별 텐서 구성, 메모리 레이아웃 최적화를 코드와 함께 살펴본다.

#sglang #ForwardBatch #GPU Tensors #Batch Conversion

2026년 4월 11일

[SGLang] Model Runner: 포워드 패스 실행 엔진의 핵심

SGLang의 Model Runner를 분석한다. 모델 포워드 패스 실행, 입력 텐서 준비, Prefill/Decode 모드 분기, 출력 처리를 코드와 함께 살펴본다.

#sglang #Model Runner #Forward Pass #Model Execution

2026년 4월 11일

[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계

SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.

#sglang #TP Worker #Tensor Parallelism #GPU Worker

2026년 4월 11일

[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산

SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.

#sglang #FLA #Flashy Linear Attention #Chunk Processing

2026년 4월 11일

[SGLang] Lightning Attention: 고속 선형 어텐션 구현

SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.

#sglang #Lightning Attention #Linear Attention #IO-aware

2026년 4월 11일

[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션

SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.

#sglang #KDA #Kernel-Driven Attention #Linear Attention

2026년 4월 11일

[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션

SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.

#sglang #GDN #Linear Attention #Gated Diagonal Net

2026년 4월 11일

[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링

SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.

#sglang #Mamba #SSM #State Space Model #Linear Complexity

2026년 4월 11일

[SGLang] Triton Attention 커널: Python으로 작성하는 GPU 커널

SGLang의 Triton Attention 백엔드를 분석한다. Python으로 GPU 커널을 작성하는 Triton의 장점, Prefill/Decode/Extend 각 단계별 커널 구현을 코드와 함께 살펴본다.

#sglang #Triton #GPU Kernel #Attention Kernel

2026년 4월 11일

[SGLang] Hybrid Attention: Dense-Sparse 동적 전환 전략

SGLang의 Hybrid Attention 백엔드를 분석한다. Dense와 Sparse 어텐션을 동적으로 전환하는 전략, 전환 조건과 임계값 설계를 코드와 함께 살펴본다.

#sglang #Hybrid Attention #Dense-Sparse #Dynamic Switching

2026년 4월 11일

[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화

SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.

#sglang #Double Sparsity #H-Sparsity #T-Sparsity #Sparse Attention

2026년 4월 11일

[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션

SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.

#sglang #NSA #Sparse Attention #DeepSeek #Selective Attention

2026년 4월 11일

[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션

SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.

#sglang #MLA #Multi-head Latent Attention #KV Compression #DeepSeek

2026년 4월 11일

[SGLang] FlashInfer: 래그드 텐서 어텐션 엔진

SGLang의 FlashInfer 백엔드를 분석한다. 가변 길이 시퀀스를 위한 래그드 텐서 처리, FlashAttention 대비 장점, Paged KV Cache 통합을 코드와 함께 살펴본다.

#sglang #FlashInfer #Ragged Tensor #Variable Length

2026년 4월 11일

[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현

SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.

#sglang #FlashAttention #IO-aware #Tiling #HBM

2026년 4월 11일

[SGLang] Attention Registry: 동적 백엔드 선택 메커니즘

SGLang의 Attention Registry를 분석한다. 런타임에 최적의 어텐션 백엔드를 동적으로 선택하는 레지스트리 패턴, 하드웨어별 백엔드 매핑을 코드와 함께 살펴본다.

#sglang #Attention Registry #Backend Selection #Registry Pattern

2026년 4월 11일

[SGLang] RadixAttention Layer: 통합 어텐션 인터페이스의 설계

SGLang의 RadixAttention Layer를 분석한다. 모든 어텐션 백엔드를 추상화하는 통합 인터페이스, forward 함수의 백엔드 디스패치, KV 캐시 연동을 코드와 함께 살펴본다.

#sglang #RadixAttention #Attention Layer #Backend Dispatch

2026년 4월 11일

[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱

SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.

#sglang #Multimodal Cache #Vision Encoder #Image Caching

2026년 4월 11일

[SGLang] 외부 스토리지 백엔드: LMCache, 3FS, Mooncake, NIXL

SGLang의 외부 스토리지 백엔드를 분석한다. KV 캐시를 외부 스토리지로 확장하는 아키텍처, LMCache·3FS·Mooncake·NIXL 등 5개 백엔드의 구현을 코드와 함께 비교한다.

#sglang #External Storage #LMCache #Mooncake #Distributed Cache

2026년 4월 11일

[SGLang] Session-Aware Cache: 사용자별 KV 캐시 파티셔닝

SGLang의 Session-Aware Cache를 분석한다. 세션 단위로 KV 캐시를 파티셔닝하여 멀티턴 대화에서 캐시 재활용률을 높이는 전략을 코드와 함께 살펴본다.

#sglang #Session Cache #Multi-turn #Cache Partitioning

2026년 4월 11일

[SGLang] Hybrid Cache Controller: GPU/CPU 하이브리드 캐시 관리

SGLang의 Hybrid Cache Controller를 분석한다. GPU와 CPU 메모리를 결합한 하이브리드 캐시 구조, 핫/콜드 데이터 자동 분류, 계층 간 데이터 이동을 코드와 함께 살펴본다.

#sglang #Hybrid Cache #GPU CPU #Memory Management

2026년 4월 10일

[SGLang] 캐시 Eviction 정책: LRU, LFU, FIFO 비교 분석

SGLang의 캐시 Eviction 정책을 분석한다. LRU, LFU, FIFO 등 퇴거 전략의 구현, 각 정책의 장단점과 적용 시나리오를 코드와 함께 비교한다.

#sglang #Cache Eviction #LRU #LFU #FIFO

2026년 4월 10일

[SGLang] Mamba Radix Cache: SSM 모델을 위한 상태 캐싱

SGLang의 Mamba Radix Cache를 분석한다. Transformer와 다른 SSM(State Space Model)의 상태 관리, Mamba 모델의 재귀 상태 캐싱 전략을 코드와 함께 살펴본다.

#sglang #Mamba #SSM #State Caching #Radix Cache

2026년 4월 10일

[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계

SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.

#sglang #Sliding Window Attention #SWA Cache #Memory Optimization

2026년 4월 10일

[SGLang] HiRadixCache: 계층적 GPU/CPU/Disk KV 캐시

SGLang의 HiRadixCache를 분석한다. GPU → CPU → Disk 3계층 캐시 구조, 핫/콜드 데이터 자동 이동, 대규모 컨텍스트 지원을 코드와 함께 살펴본다.

#sglang #HiRadixCache #Hierarchical Cache #CPU Offloading

2026년 4월 10일

[SGLang] Allocator: 토큰-KV 풀 할당 전략의 설계

SGLang의 메모리 Allocator를 분석한다. 토큰을 KV 캐시 풀에 매핑하는 할당 전략, 연속/분산 할당 모드, 메모리 단편화 방지를 코드와 함께 살펴본다.

#sglang #Allocator #Memory Allocation #KV Pool

2026년 4월 10일

[SGLang] GPU Memory Pool: 블록 기반 KV 캐시 메모리 할당

SGLang의 GPU Memory Pool을 분석한다. 사전 할당된 GPU 메모리 블록 관리, KV 캐시용 메모리 풀 설계, 동적 할당/해제 전략을 코드와 함께 살펴본다.

#sglang #Memory Pool #GPU Memory #Block Allocation

2026년 4월 10일

[SGLang] C++ Radix Tree: 고성능 캐시를 위한 네이티브 구현

SGLang의 C++ Radix Tree 구현을 분석한다. Python 바인딩, V2 트리 구조의 노드 설계, 메모리 효율적 탐색과 삽입 알고리즘을 코드와 함께 살펴본다.

#sglang #C++ Radix Tree #Native Implementation #Performance

2026년 4월 10일

[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심

SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #RadixAttention #Prefix Caching #Radix Tree #KV Cache

2026년 4월 10일

[SGLang] Prefill Delayer: 전략적 프리필 지연으로 디코드 처리량 극대화

SGLang의 Prefill Delayer를 분석한다. 프리필 요청을 의도적으로 지연시켜 디코드 배치의 처리량을 극대화하는 전략, 지연 조건과 임계값 설정을 코드와 함께 살펴본다.

#sglang #Prefill Delay #Decode Throughput #Scheduling Strategy

2026년 4월 10일

[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인

SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.

#sglang #Data Parallelism #DP Attention #Load Balancing

2026년 4월 10일

[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계

SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.

#sglang #Pipeline Parallelism #Scheduler Mixin #Micro-batch

2026년 4월 10일

[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심

SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.

#sglang #Continuous Batching #Chunked Prefill #Dynamic Batching

2026년 4월 10일

[SGLang] 스케줄링 정책: FCFS, LPM, LOF, DFS-Weight 비교 분석

SGLang의 스케줄링 정책을 분석한다. FCFS, LPM, LOF, DFS-Weight, Routing-Key 등 정책별 구현, 프리픽스 캐시 매칭과의 상호작용, 정책 선택이 throughput에 미치는 영향을 코드와 함께 살펴본다.

#sglang #Scheduling Policy #FCFS #LPM #DFS-Weight

2026년 4월 10일

[SGLang] ScheduleBatch & Req: 배치 데이터 구조의 설계와 생명주기

SGLang의 핵심 데이터 구조 Req와 ScheduleBatch를 분석한다. 요청의 생명주기, KV 캐시 메타데이터 관리, 배치 구성과 메모리 풀 연결을 코드와 함께 살펴본다.

#sglang #ScheduleBatch #Request Lifecycle #Data Structures

2026년 4월 10일

[SGLang] Zero-Overhead CPU Scheduler: 배치 스케줄링의 핵심 설계

SGLang의 Zero-Overhead CPU Scheduler를 분석한다. 기존 GPU-bound 스케줄러 대비 CPU에서의 오버헤드 없는 배치 결정, 메인 루프 구조, Prefill/Decode 분리를 코드와 함께 살펴본다.

#sglang #Scheduler #Zero-Overhead #Batch Scheduling

2026년 4월 10일

[SGLang] Multi-Tokenizer: 다중 모델 토크나이저 동시 관리

SGLang의 Multi-Tokenizer 시스템을 분석한다. 여러 모델의 토크나이저를 동시에 관리하는 믹스인 패턴, 토크나이저 풀 운영, 동적 로딩 전략을 코드와 함께 살펴본다.

#sglang #Multi-Tokenizer #Mixin #Dynamic Loading

2026년 4월 10일

[SGLang] IO 데이터 구조: 요청에서 응답까지의 직렬화 설계

SGLang의 IO 데이터 구조를 분석한다. GenerateReqInput, TokenizedGenerateReqInput, BatchTokenIDOutput 등 요청-응답 파이프라인의 핵심 데이터 클래스를 코드와 함께 살펴본다.

#sglang #Data Structures #Serialization #IPC

2026년 4월 10일

[SGLang] DetokenizerManager: 스트리밍 디토큰화와 증분 출력

SGLang DetokenizerManager의 스트리밍 디토큰화를 분석한다. 토큰 ID를 텍스트로 변환하는 과정, 증분 출력 처리, 스트리밍/비스트리밍 모드의 차이를 코드와 함께 살펴본다.

#sglang #Detokenizer #Streaming #Incremental Output

2026년 4월 10일

[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현

SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.

#sglang #Tokenizer #Async Pipeline #ZMQ IPC

2026년 4월 10일

[SGLang] Chat Template 관리: Jinja 템플릿과 모델별 대화 포맷

SGLang의 Chat Template 시스템을 분석한다. ChatTemplate 클래스, Jinja2 기반 렌더링, Llama·Qwen·DeepSeek 등 모델별 대화 포맷 매핑을 코드와 함께 살펴본다.

#sglang #Chat Template #Jinja2 #Conversation Format

2026년 4월 10일

[SGLang] 멀티 백엔드: OpenAI, Anthropic, VertexAI, LiteLLM 통합

SGLang의 멀티 백엔드 추상화를 분석한다. BaseBackend 인터페이스, OpenAI·Anthropic·VertexAI·LiteLLM 백엔드 구현, RuntimeEndpoint를 통한 로컬 서버 연결을 코드와 함께 살펴본다.

#sglang #Backend #Multi-Provider #API Abstraction

2026년 4월 10일

[SGLang] Interpreter: SGL 프로그램 실행 엔진의 설계와 구현

SGLang Interpreter의 실행 엔진을 분석한다. StreamExecutor를 통한 스트리밍 실행, ProgramState 관리, 백엔드 연결 및 호출, 배치 실행 최적화를 코드와 함께 살펴본다.

#sglang #Interpreter #StreamExecutor #Program Execution

2026년 4월 10일

[SGLang] 중간 표현(IR): SglGen, SglSelect, SglExpr의 설계

SGLang의 중간 표현(Intermediate Representation) 시스템을 분석한다. SGL 코드가 IR로 변환되는 과정, SglGen·SglSelect·SglExpr 노드의 구조, 컴파일러 이론과의 연관성을 코드와 함께 살펴본다.

#sglang #IR #Intermediate Representation #Compiler Design

2026년 4월 10일

[SGLang] SGL 언어: LLM 프로그래밍을 위한 DSL 설계

SGLang의 프론트엔드 DSL을 분석한다. gen(), select(), @function 데코레이터의 설계 철학, 기존 프롬프트 엔지니어링(LangChain, raw API)의 한계를 어떻게 극복하는지, 실제 사용 패턴을 코드와 함께 살펴본다.

#sglang #DSL #Frontend Language #LLM Programming

2026년 4월 9일

[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현

SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.

#sglang #ASR #Speech Recognition #Whisper #Transcription

2026년 4월 9일

[SGLang] Function Calling & Tool Use: 20+ 모델별 포맷 파서 구현

SGLang의 Function Calling 파이프라인을 분석한다. FunctionCallParser의 출력 파싱 구조, 20+ 모델별 포맷 감지기(Qwen, DeepSeek, Gemma 등), Tool Server를 통한 함수 실행 흐름을 코드와 함께 살펴본다.

#sglang #Function Calling #Tool Use #Format Detection

2026년 4월 9일

[SGLang] gRPC 서버: 분산 추론을 위한 고성능 통신 계층

SGLang의 gRPC 서버 구현을 분석한다. HTTP 대비 gRPC의 장점, Protobuf 메시지 정의, Streaming RPC를 통한 실시간 토큰 전달, 분산 환경에서의 활용 방식을 코드와 함께 살펴본다.

#sglang #gRPC #Distributed Inference #Protobuf

2026년 4월 9일

[SGLang] Anthropic/Ollama 호환 API: 멀티 프로토콜 LLM 서빙

SGLang의 Anthropic Messages API와 Ollama API 호환 레이어를 분석한다. 프로토콜 변환, Smart Router를 통한 지능형 라우팅, 세 가지 API 프로토콜 간 차이를 코드와 함께 비교한다.

#sglang #Anthropic API #Ollama API #Multi-Protocol

2026년 4월 9일

[SGLang] OpenAI 호환 API: Chat, Completions, Embedding 엔드포인트 구현

SGLang의 OpenAI 호환 API 레이어를 분석한다. /v1/chat/completions, /v1/completions, /v1/embeddings 엔드포인트의 구현, 프로토콜 변환, 스트리밍 응답 처리를 코드와 함께 살펴본다.

#sglang #OpenAI API #Chat Completions #Streaming

2026년 4월 9일

[SGLang] Engine: 멀티프로세스 오케스트레이터의 설계와 구현

SGLang Engine 클래스의 멀티프로세스 아키텍처를 분석한다. ZMQ IPC 기반 프로세스 간 통신, TokenizerManager-Scheduler-DetokenizerManager 파이프라인, 프로세스 생성과 라이프사이클 관리를 코드와 함께 살펴본다.

#sglang #Engine #Multiprocessing #ZMQ IPC

2026년 4월 9일

[SGLang] FastAPI 기반 HTTP 서버: 비동기 추론 서빙의 진입점

SGLang의 FastAPI 기반 HTTP 서버 구현을 분석한다. 라우트 등록, 미들웨어 구성, OpenAI 호환 핸들러 초기화, 비동기 요청 처리 흐름을 코드와 함께 살펴본다.

#sglang #HTTP Server #FastAPI #LLM Serving

2026년 4월 9일

[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차

SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트

#sglang #Architecture #LLM Inference #RadixAttention

2026년 4월 9일

[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석

sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.

#sglang #LLM #AMD GPU #벤치마크 #최적화 #CI/CD

2026년 4월 9일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일

[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선

sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.

#sglang #performance #CI #AMD #Qwen3.5 #FP8 #benchmarking

2026년 4월 7일

[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선

Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석

#Mamba #Cache Optimization #Performance Tuning #LLM #sglang

2026년 3월 31일