[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석#sglang#diffusion#torch.compile#optimization#performance#AI2026년 5월 15일댓글 수 로딩 중
[sglang] NixlKVManager 성능 향상: 비동기 및 멀티스레드 KV 전송 도입NixlKVManager의 KV 전송 병목 현상을 비동기 및 멀티스레드 방식으로 해결하여 성능을 4배 향상시켰습니다.#sglang#Nixl#성능 최적화#비동기 처리#멀티스레딩#분산 추론2026년 5월 7일댓글 수 로딩 중
[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.#sglang#optimization#performance#deep learning#denoising#attention2026년 5월 3일댓글 수 로딩 중
[sglang] sglang, AMD MI35x 환경에서 GLM-5-MXFP4 모델의 성능 및 정확도 테스트 추가sglang 레포지토리에서 AMD MI35x GPU 환경에 GLM-5-MXFP4 모델의 정확도 및 성능 테스트를 추가하고 기존 테스트를 정리하는 PR을 분석합니다.#sglang#AMD#MI35x#GLM-5-MXFP4#CI#테스트 자동화#성능 최적화2026년 4월 15일댓글 수 로딩 중
[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.#sglang#Hardware Backend#MLX#NPU#XPU#Abstraction2026년 4월 15일댓글 수 로딩 중
[SGLang] Reasoning & Code Completion Parser: 추론 및 코드 파서SGLang의 Reasoning Parser와 Code Completion Parser를 분석한다. Chain-of-Thought 추론 출력 파싱, 코드 완성 포맷 처리, 대화 관리를 코드와 함께 살펴본다.#sglang#Reasoning Parser#Code Completion#Conversation2026년 4월 14일댓글 수 로딩 중
[SGLang] Debug Utils: 텐서 비교, 스케줄 시뮬레이터SGLang의 디버그 유틸리티를 분석한다. 텐서 값 비교기(Comparator), 스케줄 시뮬레이터, 토큰별 시각화 도구 등 개발/디버깅 인프라를 코드와 함께 살펴본다.#sglang#Debug Utils#Tensor Comparator#Schedule Simulator2026년 4월 14일댓글 수 로딩 중
[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.#sglang#Observability#Metrics#Tracing#Profiling2026년 4월 14일댓글 수 로딩 중
[SGLang] sgl-kernel: 커스텀 C++/CUDA 커널 라이브러리SGLang의 sgl-kernel 라이브러리를 분석한다. 커스텀 C++/CUDA 커널의 구조, AllReduce/Attention/Quantization/Sampling 등 주요 커널 카테고리를 코드와 함께 살펴본다.#sglang#sgl-kernel#CUDA Kernel#C++ Extension2026년 4월 14일댓글 수 로딩 중
[SGLang] Server Args: 300+ 서버 인자 완전 가이드SGLang의 ServerArgs를 분석한다. 300+ 서버 설정 인자를 카테고리별로 정리하고, 핵심 설정의 기본값과 튜닝 가이드를 코드와 함께 제공한다.#sglang#Server Args#Configuration#Tuning Guide2026년 4월 14일댓글 수 로딩 중
[SGLang] Model Configuration 시스템: 모델 설정 관리SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.#sglang#Model Config#Configuration#HuggingFace2026년 4월 14일댓글 수 로딩 중
[SGLang] Batch Overlap: 연산-통신 오버랩 최적화SGLang의 Batch Overlap을 분석한다. GPU 연산과 통신을 중첩하여 유휴 시간을 줄이는 전략, Single/Dual 배치 오버랩 모드를 코드와 함께 살펴본다.#sglang#Batch Overlap#Compute-Communication#Pipeline2026년 4월 14일댓글 수 로딩 중
[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.#sglang#Sparsity#QUEST#NSA#Sparse Pattern2026년 4월 14일댓글 수 로딩 중
[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.#sglang#Deep GEMM#Matrix Multiplication#GEMM Optimization2026년 4월 14일댓글 수 로딩 중
[SGLang] RoPE 변형: 로타리 위치 인코딩의 다양한 구현SGLang의 RoPE 구현을 분석한다. 기본 RoPE, NTK-aware Scaling, YaRN, Dynamic NTK 등 다양한 변형의 구현, 위치 인코딩이 긴 컨텍스트에 미치는 영향을 코드와 함께 살펴본다.#sglang#RoPE#Rotary Position Encoding#Position Embedding2026년 4월 14일댓글 수 로딩 중
[SGLang] Activation Functions: SiLU, GELU 커스텀 구현SGLang의 활성화 함수 구현을 분석한다. SiLU, GELU, SiLU-and-Mul 등 Fused 활성화 함수의 커스텀 구현, PyTorch 기본 대비 성능 향상을 코드와 함께 살펴본다.#sglang#Activation#SiLU#GELU#Fused Operations2026년 4월 14일댓글 수 로딩 중
[SGLang] Linear Layer: 양자화 통합 선형 레이어의 설계SGLang의 Linear Layer를 분석한다. 양자화 메서드를 투명하게 통합하는 선형 레이어 설계, ColumnParallel/RowParallel 분할, 가중치 로딩을 코드와 함께 살펴본다.#sglang#Linear Layer#Quantization Integration#Tensor Parallel2026년 4월 14일댓글 수 로딩 중
[SGLang] Efficient Vision Sampling: 이미지 토큰 압축SGLang의 Efficient Vision Sampling을 분석한다. 이미지 토큰 수를 줄여 추론 속도를 높이는 압축 전략, 정확도-효율 트레이드오프를 코드와 함께 살펴본다.#sglang#EVS#Vision Sampling#Token Compression#Efficiency2026년 4월 14일댓글 수 로딩 중
[SGLang] ViT CUDA Graph: Vision Encoder 가속SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.#sglang#ViT#CUDA Graph#Vision Encoder#Acceleration2026년 4월 14일댓글 수 로딩 중
[SGLang] Audio 모델: Whisper, Qwen3-ASR, GLM-ASR 프로세서SGLang의 Audio 모델 프로세서를 분석한다. Whisper, Qwen3-ASR, GLM-ASR 등 음성 모델의 오디오 전처리, 스펙트로그램 변환, 텍스트 출력을 코드와 함께 살펴본다.#sglang#Audio Models#Whisper#Qwen3-ASR#Speech Processing2026년 4월 14일댓글 수 로딩 중
[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.#sglang#Vision Language#CLIP#InternVL#LLaVA2026년 4월 14일댓글 수 로딩 중
[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.#sglang#Multimodal#Vision#Audio#Video#Pipeline2026년 4월 14일댓글 수 로딩 중
[SGLang] Custom Logit Processor: 사용자 정의 로짓 처리SGLang의 Custom Logit Processor를 분석한다. 사용자가 정의한 로짓 변환 함수를 서빙 시 적용하는 구조, 보안 제약, 배치 처리를 코드와 함께 살펴본다.#sglang#Custom Logit Processor#User-defined#Logit Transformation2026년 4월 14일댓글 수 로딩 중
[SGLang] PenaltyLib: 반복/빈도/존재 페널티 구현SGLang의 PenaltyLib를 분석한다. repetition_penalty, frequency_penalty, presence_penalty의 구현, 배치 단위 페널티 적용 최적화를 코드와 함께 살펴본다.#sglang#PenaltyLib#Repetition Penalty#Frequency Penalty2026년 4월 14일댓글 수 로딩 중
[SGLang] Sampling Parameters: 전체 샘플링 파라미터 정리SGLang의 전체 샘플링 파라미터를 분석한다. temperature, top_k, top_p, min_p, repetition_penalty 등 모든 파라미터의 역할과 상호작용을 코드와 함께 정리한다.#sglang#Sampling Parameters#Temperature#Top-K#Top-P2026년 4월 14일댓글 수 로딩 중
[SGLang] Sampler: logits에서 토큰까지의 샘플링 파이프라인SGLang의 Sampler를 분석한다. logits에서 최종 토큰을 선택하는 파이프라인, temperature/top-k/top-p 적용, 배치 샘플링 최적화를 코드와 함께 살펴본다.#sglang#Sampler#Token Sampling#Top-K#Top-P2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.#sglang#LoRA Eviction#Adapter Cache#LRU#Memory Management2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA + MoE 융합: 어댑터와 전문가 혼합의 통합SGLang의 LoRA+MoE 융합을 분석한다. MoE 모델에 LoRA 어댑터를 적용하는 구현, 전문가별 독립 어댑터, Fused MoE LoRA 커널을 코드와 함께 살펴본다.#sglang#LoRA MoE#Expert Adapter#Fused Kernel2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.#sglang#LoRA Triton#SGMV#SGEMM#Kernel Optimization2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.#sglang#LoRA Backend#PyTorch#Triton#Chunked2026년 4월 13일댓글 수 로딩 중
[SGLang] LoRA Layers: QKV, Gate/Up 프로젝션 어댑터SGLang의 LoRA Layer 구현을 분석한다. QKV Projection, Gate/Up Projection 등에 LoRA 어댑터를 적용하는 구조를 코드와 함께 살펴본다.#sglang#LoRA Layers#QKV Projection#Adapter2026년 4월 13일댓글 수 로딩 중
[SGLang] LoRA Manager: 어댑터 라이프사이클 관리SGLang의 LoRA Manager를 분석한다. 런타임 어댑터 로딩/언로딩, 멀티 LoRA 배칭, 어댑터 레지스트리 관리를 코드와 함께 살펴본다.#sglang#LoRA Manager#Adapter Loading#Multi-LoRA2026년 4월 13일댓글 수 로딩 중
[SGLang] Staging Buffer: KV 캐시 전송 버퍼 관리SGLang의 Staging Buffer를 분석한다. KV 캐시 전송을 위한 스테이징 버퍼 설계, 비동기 전송과의 연동, 메모리 풀 관리를 코드와 함께 살펴본다.#sglang#Staging Buffer#Async Transfer#Buffer Management2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregation 커넥터: Mooncake, NIXL, MORI 전송 엔진SGLang의 Disaggregation 커넥터를 분석한다. Mooncake, NIXL, MORI 등 KV 캐시 전송 엔진의 구현, 각 커넥터의 특성 비교를 코드와 함께 살펴본다.#sglang#Mooncake#NIXL#MORI#Transfer Engine2026년 4월 13일댓글 수 로딩 중
[SGLang] KV Cache Offloading: Decode 중 메모리 오프로딩SGLang의 KV Cache Offloading을 분석한다. Decode 단계에서 GPU 메모리 부족 시 KV 캐시를 CPU로 오프로딩하는 전략을 코드와 함께 살펴본다.#sglang#KV Offloading#CPU Offload#Memory Management2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregated Decode 서버: 디코드 전용 서버 구현SGLang의 Disaggregated Decode 서버를 분석한다. 디코드 전용 서버의 KV 캐시 수신, 토큰 생성 루프, Prefill 서버로부터의 상태 전달을 코드와 함께 살펴본다.#sglang#Disaggregated Decode#Token Generation#Decode Server2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregated Prefill 서버: 프리필 전용 서버 구현SGLang의 Disaggregated Prefill 서버를 분석한다. 프리필 전용으로 최적화된 서버 구현, KV 캐시 생성 및 전송, Decode 서버와의 협조를 코드와 함께 살펴본다.#sglang#Disaggregated Prefill#KV Transfer#Prefill Server2026년 4월 13일댓글 수 로딩 중
[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.#sglang#Disaggregation#PD Separation#Prefill-Decode2026년 4월 13일댓글 수 로딩 중
[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.#sglang#HPU#NPU#XPU#Hardware Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.#sglang#Shared Memory#Broadcast#IPC#Low Latency2026년 4월 13일댓글 수 로딩 중
[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.#sglang#Ray#Distributed Engine#Actor Pattern2026년 4월 13일댓글 수 로딩 중
[SGLang] Data Parallel Controller: 다중 인스턴스 조율SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.#sglang#Data Parallelism#Load Balancing#Multi-Instance2026년 4월 13일댓글 수 로딩 중
[SGLang] NCCL & MSCCL++: 집합 통신 라이브러리 통합SGLang의 NCCL과 MSCCL++ 통합을 분석한다. NVIDIA NCCL의 래퍼 구현, Microsoft MSCCL++의 추가 최적화, 라이브러리 선택 전략을 코드와 함께 살펴본다.#sglang#NCCL#MSCCL++#Collective Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중
[SGLang] 통신 연산: AllReduce, Broadcast, AllGather 구현SGLang의 분산 통신 연산을 분석한다. AllReduce, Broadcast, AllGather 등 집합 통신의 구현, 커스텀 올리듀스와의 연동을 코드와 함께 살펴본다.#sglang#AllReduce#Broadcast#Collective Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Parallel State: TP/PP/DP/EP 병렬화 상태 관리SGLang의 Parallel State를 분석한다. Tensor/Pipeline/Data/Expert 4종 병렬화의 프로세스 그룹 관리, 초기화 순서, 그룹 간 관계를 코드와 함께 살펴본다.#sglang#Parallel State#Process Group#TP PP DP EP2026년 4월 13일댓글 수 로딩 중
[SGLang] Reasoner Grammar: 추론 체인 제약 생성SGLang의 Reasoner Grammar를 분석한다. Chain-of-Thought 추론 과정에서 구조화된 출력을 제약하는 방식, 추론 단계와 응답 단계의 분리를 코드와 함께 살펴본다.#sglang#Reasoner Grammar#Chain-of-Thought#Reasoning Constraint2026년 4월 13일댓글 수 로딩 중
[SGLang] LLGuidance: Microsoft의 문법 제약 백엔드SGLang의 LLGuidance 백엔드를 분석한다. Microsoft의 LLGuidance 라이브러리 통합, XGrammar/Outlines 대비 차별점, 토큰 마스크 생성을 코드와 함께 살펴본다.#sglang#LLGuidance#Microsoft#Grammar Backend2026년 4월 13일댓글 수 로딩 중
[SGLang] Outlines: FSM 기반 제약 생성과 Jump-Forward 최적화SGLang의 Outlines 백엔드를 분석한다. Finite State Machine 기반 토큰 제약, Jump-Forward 최적화로 확정 토큰을 건너뛰는 기법을 코드와 함께 살펴본다.#sglang#Outlines#FSM#Jump-Forward#Constrained Decoding2026년 4월 13일댓글 수 로딩 중
[SGLang] XGrammar: JSON/Regex 제약 백엔드SGLang의 XGrammar 백엔드를 분석한다. JSON Schema와 Regex 패턴을 문법으로 변환하여 토큰 생성을 제약하는 구현, 비트마스크 기반 필터링을 코드와 함께 살펴본다.#sglang#XGrammar#JSON Schema#Regex#Token Masking2026년 4월 13일댓글 수 로딩 중
[SGLang] Grammar Manager: 구조화된 출력 생성의 통합 관리SGLang의 Grammar Manager를 분석한다. JSON Schema, Regex, EBNF 등 다양한 제약 조건을 통합 관리하는 구조, 백엔드 디스패치, 토큰 마스킹 과정을 코드와 함께 살펴본다.#sglang#Grammar Manager#Structured Output#JSON Schema#Regex2026년 4월 13일댓글 수 로딩 중
[SGLang] Tree Search & Verification: 트리 기반 추측과 검증SGLang의 트리 탐색과 검증 알고리즘을 분석한다. 후보 토큰을 트리 구조로 구성하여 병렬 검증하는 방식, 트리 구축 전략, acceptance 판정을 코드와 함께 살펴본다.#sglang#Tree Search#Verification#Token Tree#Acceptance2026년 4월 13일댓글 수 로딩 중
[SGLang] EAGLE CUDA Graph: 드래프트 모델 가속SGLang의 EAGLE CUDA Graph Runner를 분석한다. 드래프트 모델의 반복 실행을 CUDA Graph로 캡처하여 오버헤드를 제거하는 전략을 코드와 함께 살펴본다.#sglang#EAGLE CUDA Graph#Draft Acceleration#Graph Capture2026년 4월 13일댓글 수 로딩 중
[SGLang] DFlash: Flash 기반 고속 드래프팅SGLang의 DFlash를 분석한다. Flash Attention을 활용한 고속 드래프트 생성, 기존 EAGLE 대비 드래프팅 속도 향상을 코드와 함께 살펴본다.#sglang#DFlash#Flash Draft#Fast Speculation2026년 4월 12일댓글 수 로딩 중
[SGLang] N-gram Draft: 모델 프리 투기적 디코딩SGLang의 N-gram Draft를 분석한다. 별도 드래프트 모델 없이 N-gram 통계로 토큰을 추측하는 방식, 코퍼스 관리, 외부 코퍼스 지원을 코드와 함께 살펴본다.#sglang#N-gram#Model-free Draft#Corpus2026년 4월 12일댓글 수 로딩 중
[SGLang] Multi-Layer EAGLE: 다계층 드래프트로 더 긴 추측SGLang의 Multi-Layer EAGLE을 분석한다. 다계층 드래프트 모델로 더 긴 토큰 시퀀스를 추측하는 전략, 단일 계층 EAGLE 대비 향상을 코드와 함께 살펴본다.#sglang#Multi-Layer EAGLE#Deep Draft#Extended Speculation2026년 4월 12일댓글 수 로딩 중
[SGLang] EAGLE v2: 개선된 드래프트 알고리즘SGLang의 EAGLE v2를 분석한다. EAGLE v1 대비 개선점, 향상된 트리 구조, 더 높은 acceptance rate를 코드와 함께 살펴본다.#sglang#EAGLE v2#Improved Draft#Acceptance Rate2026년 4월 12일댓글 수 로딩 중
[SGLang] EAGLE: 은닉 상태 기반 드래프트 모델SGLang의 EAGLE 구현을 분석한다. 타겟 모델의 은닉 상태를 활용한 드래프트 생성, 기존 독립 드래프트 모델 대비 정확도 향상, 트리 기반 검증을 코드와 함께 살펴본다.#sglang#EAGLE#Draft Model#Hidden States#Speculative2026년 4월 12일댓글 수 로딩 중
[SGLang] Speculative Decoding 개요: 원리와 구현 아키텍처SGLang의 Speculative Decoding 전체 아키텍처를 분석한다. 드래프트-검증 2단계 파이프라인의 원리, 기존 Autoregressive 대비 2-3x 속도 향상, SGLang의 구현 방식을 코드와 함께 살펴본다.#sglang#Speculative Decoding#Draft-Verify#Acceleration2026년 4월 12일댓글 수 로딩 중
[SGLang] FlashInfer + TensorRT-LLM MoE: 하이브리드 MoE 커널SGLang의 FlashInfer/TensorRT-LLM MoE를 분석한다. FlashInfer와 TensorRT-LLM 커널을 결합한 하이브리드 MoE 구현, 커널별 장단점 비교를 코드와 함께 살펴본다.#sglang#FlashInfer MoE#TensorRT-LLM#Hybrid Kernel2026년 4월 12일댓글 수 로딩 중
[SGLang] EPLB: Expert-Parallel Load Balancing 알고리즘SGLang의 EPLB를 분석한다. 전문가 병렬 환경에서의 부하 균형 알고리즘, DeepSeek 스타일 로드 밸런싱, 전문가 위치 추적과 재분배를 코드와 함께 살펴본다.#sglang#EPLB#Load Balancing#Expert Distribution2026년 4월 12일댓글 수 로딩 중
[SGLang] Elastic Expert Parallelism: 동적 전문가 스케일링SGLang의 Elastic EP를 분석한다. 부하에 따라 전문가를 동적으로 스케일링하는 탄력적 병렬화, 전문가 백업 관리, 장애 복구를 코드와 함께 살펴본다.#sglang#Elastic EP#Dynamic Scaling#Expert Backup2026년 4월 12일댓글 수 로딩 중
[SGLang] MoE 라우팅: 토큰에서 전문가로의 배분 알고리즘SGLang의 MoE 라우팅 알고리즘을 분석한다. Top-K 게이트 선택, 로드 밸런싱, 토큰 드롭 전략, Expert Choice vs Token Choice 비교를 코드와 함께 살펴본다.#sglang#MoE Routing#Top-K Gate#Load Balancing2026년 4월 12일댓글 수 로딩 중
[SGLang] Expert Parallel MoE: 분산 전문가 레이어 구현SGLang의 Expert Parallel MoE를 분석한다. 전문가를 여러 GPU에 분산하는 EP 구조, All-to-All 통신, 로컬/리모트 전문가 라우팅을 코드와 함께 살펴본다.#sglang#Expert Parallelism#EP-MoE#All-to-All#Distributed2026년 4월 12일댓글 수 로딩 중
[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.#sglang#CUTLASS#MoE#GEMM Kernel#NVIDIA2026년 4월 12일댓글 수 로딩 중
[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.#sglang#Fused MoE#Triton#Expert Fusion#GEMM2026년 4월 12일댓글 수 로딩 중
[SGLang] 하드웨어별 양자화 튜닝: B200, H100, MI300X 최적 설정SGLang의 하드웨어별 양자화 설정을 분석한다. NVIDIA B200, H100, AMD MI300X 등 GPU별 최적 양자화 파라미터, 하드웨어 특성에 맞춘 커널 선택을 코드와 함께 비교한다.#sglang#Hardware Config#B200#H100#MI300X#Quantization Tuning2026년 4월 12일댓글 수 로딩 중
[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.#sglang#MoE Quantization#Expert-wise#Fused MoE2026년 4월 12일댓글 수 로딩 중
[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.#sglang#Mixed Precision#W4A8#W8A8#Quantization Schemes2026년 4월 12일댓글 수 로딩 중
[SGLang] Compressed Tensors: 통합 양자화 프레임워크SGLang의 Compressed Tensors 프레임워크를 분석한다. 다양한 양자화 방식을 통합하는 프레임워크 설계, 스킴 자동 선택, 가중치 로딩 파이프라인을 코드와 함께 살펴본다.#sglang#Compressed Tensors#Quantization Framework#Unified2026년 4월 12일댓글 수 로딩 중
[SGLang] AutoRound: 자동 라운딩 최적화 양자화SGLang의 AutoRound 양자화를 분석한다. 라운딩 오류를 최적화하는 자동 보정 기법, 기존 RTN 대비 정확도 향상을 코드와 함께 살펴본다.#sglang#AutoRound#Rounding Optimization#Calibration2026년 4월 12일댓글 수 로딩 중
[SGLang] BitsAndBytes: QLoRA와 NF4 동적 양자화SGLang의 BitsAndBytes 통합을 분석한다. NormalFloat4(NF4) 양자화의 원리, QLoRA 추론 지원, 동적 양자화/역양자화 과정을 코드와 함께 살펴본다.#sglang#BitsAndBytes#QLoRA#NF4#Dynamic Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] Block-wise INT8: 블록 단위 정수 양자화SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.#sglang#INT8#Block-wise#Integer Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] AWQ: 활성화 인식 가중치 양자화SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.#sglang#AWQ#Activation-aware#Weight Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] FP4: 4비트 부동소수점 양자화 (NVIDIA NF4)SGLang의 FP4 양자화를 분석한다. NVIDIA NF4 포맷, 4비트 극저정밀도에서의 정확도 유지 전략, FP8 대비 추가 메모리 절감을 코드와 함께 살펴본다.#sglang#FP4#NF4#4-bit Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.#sglang#FP8#Quantization#8-bit#E4M32026년 4월 12일댓글 수 로딩 중
[SGLang] Warmup: GPU 초기화와 JIT 사전 컴파일SGLang의 Warmup 시스템을 분석한다. 서버 시작 시 GPU를 예열하는 과정, CUDA Graph 캡처, JIT 커널 사전 컴파일, 첫 요청 지연 제거를 코드와 함께 살펴본다.#sglang#Warmup#JIT Compilation#GPU Initialization2026년 4월 12일댓글 수 로딩 중
[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#torch.compile#Inductor#Kernel Fusion#Compilation2026년 4월 11일댓글 수 로딩 중
[SGLang] Model Loader: 가중치 로딩 인프라와 최적화SGLang의 Model Loader를 분석한다. Safetensors/PyTorch 가중치 로딩, 텐서 병렬 분산, 양자화 가중치 처리, 메모리 매핑 최적화를 코드와 함께 살펴본다.#sglang#Model Loader#Weight Loading#Safetensors2026년 4월 11일댓글 수 로딩 중
[SGLang] Piecewise CUDA Graph: 분할 그래프 컴파일 전략SGLang의 Piecewise CUDA Graph를 분석한다. 모델을 여러 조각으로 분할하여 CUDA Graph를 캡처하는 전략, 동적 형상 지원, 메모리 효율성을 코드와 함께 살펴본다.#sglang#Piecewise CUDA Graph#Graph Compilation#Dynamic Shapes2026년 4월 11일댓글 수 로딩 중
[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.#sglang#CUDA Graphs#Kernel Launch#GPU Optimization2026년 4월 11일댓글 수 로딩 중
[SGLang] ForwardBatch: ScheduleBatch에서 GPU 텐서로의 변환SGLang의 ForwardBatch를 분석한다. CPU의 ScheduleBatch를 GPU 텐서로 변환하는 과정, Prefill/Decode별 텐서 구성, 메모리 레이아웃 최적화를 코드와 함께 살펴본다.#sglang#ForwardBatch#GPU Tensors#Batch Conversion2026년 4월 11일댓글 수 로딩 중
[SGLang] Model Runner: 포워드 패스 실행 엔진의 핵심SGLang의 Model Runner를 분석한다. 모델 포워드 패스 실행, 입력 텐서 준비, Prefill/Decode 모드 분기, 출력 처리를 코드와 함께 살펴본다.#sglang#Model Runner#Forward Pass#Model Execution2026년 4월 11일댓글 수 로딩 중
[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.#sglang#TP Worker#Tensor Parallelism#GPU Worker2026년 4월 11일댓글 수 로딩 중
[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.#sglang#FLA#Flashy Linear Attention#Chunk Processing2026년 4월 11일댓글 수 로딩 중
[SGLang] Lightning Attention: 고속 선형 어텐션 구현SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.#sglang#Lightning Attention#Linear Attention#IO-aware2026년 4월 11일댓글 수 로딩 중
[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.#sglang#KDA#Kernel-Driven Attention#Linear Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.#sglang#GDN#Linear Attention#Gated Diagonal Net2026년 4월 11일댓글 수 로딩 중
[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Space Model#Linear Complexity2026년 4월 11일댓글 수 로딩 중
[SGLang] Triton Attention 커널: Python으로 작성하는 GPU 커널SGLang의 Triton Attention 백엔드를 분석한다. Python으로 GPU 커널을 작성하는 Triton의 장점, Prefill/Decode/Extend 각 단계별 커널 구현을 코드와 함께 살펴본다.#sglang#Triton#GPU Kernel#Attention Kernel2026년 4월 11일댓글 수 로딩 중
[SGLang] Hybrid Attention: Dense-Sparse 동적 전환 전략SGLang의 Hybrid Attention 백엔드를 분석한다. Dense와 Sparse 어텐션을 동적으로 전환하는 전략, 전환 조건과 임계값 설계를 코드와 함께 살펴본다.#sglang#Hybrid Attention#Dense-Sparse#Dynamic Switching2026년 4월 11일댓글 수 로딩 중
[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.#sglang#Double Sparsity#H-Sparsity#T-Sparsity#Sparse Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.#sglang#NSA#Sparse Attention#DeepSeek#Selective Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashInfer: 래그드 텐서 어텐션 엔진SGLang의 FlashInfer 백엔드를 분석한다. 가변 길이 시퀀스를 위한 래그드 텐서 처리, FlashAttention 대비 장점, Paged KV Cache 통합을 코드와 함께 살펴본다.#sglang#FlashInfer#Ragged Tensor#Variable Length2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.#sglang#FlashAttention#IO-aware#Tiling#HBM2026년 4월 11일댓글 수 로딩 중
[SGLang] Attention Registry: 동적 백엔드 선택 메커니즘SGLang의 Attention Registry를 분석한다. 런타임에 최적의 어텐션 백엔드를 동적으로 선택하는 레지스트리 패턴, 하드웨어별 백엔드 매핑을 코드와 함께 살펴본다.#sglang#Attention Registry#Backend Selection#Registry Pattern2026년 4월 11일댓글 수 로딩 중
[SGLang] RadixAttention Layer: 통합 어텐션 인터페이스의 설계SGLang의 RadixAttention Layer를 분석한다. 모든 어텐션 백엔드를 추상화하는 통합 인터페이스, forward 함수의 백엔드 디스패치, KV 캐시 연동을 코드와 함께 살펴본다.#sglang#RadixAttention#Attention Layer#Backend Dispatch2026년 4월 11일댓글 수 로딩 중
[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.#sglang#Multimodal Cache#Vision Encoder#Image Caching2026년 4월 11일댓글 수 로딩 중
[SGLang] 외부 스토리지 백엔드: LMCache, 3FS, Mooncake, NIXLSGLang의 외부 스토리지 백엔드를 분석한다. KV 캐시를 외부 스토리지로 확장하는 아키텍처, LMCache·3FS·Mooncake·NIXL 등 5개 백엔드의 구현을 코드와 함께 비교한다.#sglang#External Storage#LMCache#Mooncake#Distributed Cache2026년 4월 11일댓글 수 로딩 중
[SGLang] Session-Aware Cache: 사용자별 KV 캐시 파티셔닝SGLang의 Session-Aware Cache를 분석한다. 세션 단위로 KV 캐시를 파티셔닝하여 멀티턴 대화에서 캐시 재활용률을 높이는 전략을 코드와 함께 살펴본다.#sglang#Session Cache#Multi-turn#Cache Partitioning2026년 4월 11일댓글 수 로딩 중
[SGLang] Hybrid Cache Controller: GPU/CPU 하이브리드 캐시 관리SGLang의 Hybrid Cache Controller를 분석한다. GPU와 CPU 메모리를 결합한 하이브리드 캐시 구조, 핫/콜드 데이터 자동 분류, 계층 간 데이터 이동을 코드와 함께 살펴본다.#sglang#Hybrid Cache#GPU CPU#Memory Management2026년 4월 10일댓글 수 로딩 중
[SGLang] 캐시 Eviction 정책: LRU, LFU, FIFO 비교 분석SGLang의 캐시 Eviction 정책을 분석한다. LRU, LFU, FIFO 등 퇴거 전략의 구현, 각 정책의 장단점과 적용 시나리오를 코드와 함께 비교한다.#sglang#Cache Eviction#LRU#LFU#FIFO2026년 4월 10일댓글 수 로딩 중
[SGLang] Mamba Radix Cache: SSM 모델을 위한 상태 캐싱SGLang의 Mamba Radix Cache를 분석한다. Transformer와 다른 SSM(State Space Model)의 상태 관리, Mamba 모델의 재귀 상태 캐싱 전략을 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Caching#Radix Cache2026년 4월 10일댓글 수 로딩 중
[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.#sglang#Sliding Window Attention#SWA Cache#Memory Optimization2026년 4월 10일댓글 수 로딩 중
[SGLang] HiRadixCache: 계층적 GPU/CPU/Disk KV 캐시SGLang의 HiRadixCache를 분석한다. GPU → CPU → Disk 3계층 캐시 구조, 핫/콜드 데이터 자동 이동, 대규모 컨텍스트 지원을 코드와 함께 살펴본다.#sglang#HiRadixCache#Hierarchical Cache#CPU Offloading2026년 4월 10일댓글 수 로딩 중
[SGLang] Allocator: 토큰-KV 풀 할당 전략의 설계SGLang의 메모리 Allocator를 분석한다. 토큰을 KV 캐시 풀에 매핑하는 할당 전략, 연속/분산 할당 모드, 메모리 단편화 방지를 코드와 함께 살펴본다.#sglang#Allocator#Memory Allocation#KV Pool2026년 4월 10일댓글 수 로딩 중
[SGLang] GPU Memory Pool: 블록 기반 KV 캐시 메모리 할당SGLang의 GPU Memory Pool을 분석한다. 사전 할당된 GPU 메모리 블록 관리, KV 캐시용 메모리 풀 설계, 동적 할당/해제 전략을 코드와 함께 살펴본다.#sglang#Memory Pool#GPU Memory#Block Allocation2026년 4월 10일댓글 수 로딩 중
[SGLang] C++ Radix Tree: 고성능 캐시를 위한 네이티브 구현SGLang의 C++ Radix Tree 구현을 분석한다. Python 바인딩, V2 트리 구조의 노드 설계, 메모리 효율적 탐색과 삽입 알고리즘을 코드와 함께 살펴본다.#sglang#C++ Radix Tree#Native Implementation#Performance2026년 4월 10일댓글 수 로딩 중
[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#RadixAttention#Prefix Caching#Radix Tree#KV Cache2026년 4월 10일댓글 수 로딩 중
[SGLang] Prefill Delayer: 전략적 프리필 지연으로 디코드 처리량 극대화SGLang의 Prefill Delayer를 분석한다. 프리필 요청을 의도적으로 지연시켜 디코드 배치의 처리량을 극대화하는 전략, 지연 조건과 임계값 설정을 코드와 함께 살펴본다.#sglang#Prefill Delay#Decode Throughput#Scheduling Strategy2026년 4월 10일댓글 수 로딩 중
[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.#sglang#Data Parallelism#DP Attention#Load Balancing2026년 4월 10일댓글 수 로딩 중
[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.#sglang#Pipeline Parallelism#Scheduler Mixin#Micro-batch2026년 4월 10일댓글 수 로딩 중
[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.#sglang#Continuous Batching#Chunked Prefill#Dynamic Batching2026년 4월 10일댓글 수 로딩 중
[SGLang] 스케줄링 정책: FCFS, LPM, LOF, DFS-Weight 비교 분석SGLang의 스케줄링 정책을 분석한다. FCFS, LPM, LOF, DFS-Weight, Routing-Key 등 정책별 구현, 프리픽스 캐시 매칭과의 상호작용, 정책 선택이 throughput에 미치는 영향을 코드와 함께 살펴본다.#sglang#Scheduling Policy#FCFS#LPM#DFS-Weight2026년 4월 10일댓글 수 로딩 중
[SGLang] ScheduleBatch & Req: 배치 데이터 구조의 설계와 생명주기SGLang의 핵심 데이터 구조 Req와 ScheduleBatch를 분석한다. 요청의 생명주기, KV 캐시 메타데이터 관리, 배치 구성과 메모리 풀 연결을 코드와 함께 살펴본다.#sglang#ScheduleBatch#Request Lifecycle#Data Structures2026년 4월 10일댓글 수 로딩 중
[SGLang] Zero-Overhead CPU Scheduler: 배치 스케줄링의 핵심 설계SGLang의 Zero-Overhead CPU Scheduler를 분석한다. 기존 GPU-bound 스케줄러 대비 CPU에서의 오버헤드 없는 배치 결정, 메인 루프 구조, Prefill/Decode 분리를 코드와 함께 살펴본다.#sglang#Scheduler#Zero-Overhead#Batch Scheduling2026년 4월 10일댓글 수 로딩 중
[SGLang] Multi-Tokenizer: 다중 모델 토크나이저 동시 관리SGLang의 Multi-Tokenizer 시스템을 분석한다. 여러 모델의 토크나이저를 동시에 관리하는 믹스인 패턴, 토크나이저 풀 운영, 동적 로딩 전략을 코드와 함께 살펴본다.#sglang#Multi-Tokenizer#Mixin#Dynamic Loading2026년 4월 10일댓글 수 로딩 중
[SGLang] IO 데이터 구조: 요청에서 응답까지의 직렬화 설계SGLang의 IO 데이터 구조를 분석한다. GenerateReqInput, TokenizedGenerateReqInput, BatchTokenIDOutput 등 요청-응답 파이프라인의 핵심 데이터 클래스를 코드와 함께 살펴본다.#sglang#Data Structures#Serialization#IPC2026년 4월 10일댓글 수 로딩 중
[SGLang] DetokenizerManager: 스트리밍 디토큰화와 증분 출력SGLang DetokenizerManager의 스트리밍 디토큰화를 분석한다. 토큰 ID를 텍스트로 변환하는 과정, 증분 출력 처리, 스트리밍/비스트리밍 모드의 차이를 코드와 함께 살펴본다.#sglang#Detokenizer#Streaming#Incremental Output2026년 4월 10일댓글 수 로딩 중
[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.#sglang#Tokenizer#Async Pipeline#ZMQ IPC2026년 4월 10일댓글 수 로딩 중
[SGLang] Chat Template 관리: Jinja 템플릿과 모델별 대화 포맷SGLang의 Chat Template 시스템을 분석한다. ChatTemplate 클래스, Jinja2 기반 렌더링, Llama·Qwen·DeepSeek 등 모델별 대화 포맷 매핑을 코드와 함께 살펴본다.#sglang#Chat Template#Jinja2#Conversation Format2026년 4월 10일댓글 수 로딩 중
[SGLang] 멀티 백엔드: OpenAI, Anthropic, VertexAI, LiteLLM 통합SGLang의 멀티 백엔드 추상화를 분석한다. BaseBackend 인터페이스, OpenAI·Anthropic·VertexAI·LiteLLM 백엔드 구현, RuntimeEndpoint를 통한 로컬 서버 연결을 코드와 함께 살펴본다.#sglang#Backend#Multi-Provider#API Abstraction2026년 4월 10일댓글 수 로딩 중
[SGLang] Interpreter: SGL 프로그램 실행 엔진의 설계와 구현SGLang Interpreter의 실행 엔진을 분석한다. StreamExecutor를 통한 스트리밍 실행, ProgramState 관리, 백엔드 연결 및 호출, 배치 실행 최적화를 코드와 함께 살펴본다.#sglang#Interpreter#StreamExecutor#Program Execution2026년 4월 10일댓글 수 로딩 중
[SGLang] 중간 표현(IR): SglGen, SglSelect, SglExpr의 설계SGLang의 중간 표현(Intermediate Representation) 시스템을 분석한다. SGL 코드가 IR로 변환되는 과정, SglGen·SglSelect·SglExpr 노드의 구조, 컴파일러 이론과의 연관성을 코드와 함께 살펴본다.#sglang#IR#Intermediate Representation#Compiler Design2026년 4월 10일댓글 수 로딩 중
[SGLang] SGL 언어: LLM 프로그래밍을 위한 DSL 설계SGLang의 프론트엔드 DSL을 분석한다. gen(), select(), @function 데코레이터의 설계 철학, 기존 프롬프트 엔지니어링(LangChain, raw API)의 한계를 어떻게 극복하는지, 실제 사용 패턴을 코드와 함께 살펴본다.#sglang#DSL#Frontend Language#LLM Programming2026년 4월 9일댓글 수 로딩 중
[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.#sglang#ASR#Speech Recognition#Whisper#Transcription2026년 4월 9일댓글 수 로딩 중
[SGLang] Function Calling & Tool Use: 20+ 모델별 포맷 파서 구현SGLang의 Function Calling 파이프라인을 분석한다. FunctionCallParser의 출력 파싱 구조, 20+ 모델별 포맷 감지기(Qwen, DeepSeek, Gemma 등), Tool Server를 통한 함수 실행 흐름을 코드와 함께 살펴본다.#sglang#Function Calling#Tool Use#Format Detection2026년 4월 9일댓글 수 로딩 중
[SGLang] gRPC 서버: 분산 추론을 위한 고성능 통신 계층SGLang의 gRPC 서버 구현을 분석한다. HTTP 대비 gRPC의 장점, Protobuf 메시지 정의, Streaming RPC를 통한 실시간 토큰 전달, 분산 환경에서의 활용 방식을 코드와 함께 살펴본다.#sglang#gRPC#Distributed Inference#Protobuf2026년 4월 9일댓글 수 로딩 중
[SGLang] Anthropic/Ollama 호환 API: 멀티 프로토콜 LLM 서빙SGLang의 Anthropic Messages API와 Ollama API 호환 레이어를 분석한다. 프로토콜 변환, Smart Router를 통한 지능형 라우팅, 세 가지 API 프로토콜 간 차이를 코드와 함께 비교한다.#sglang#Anthropic API#Ollama API#Multi-Protocol2026년 4월 9일댓글 수 로딩 중
[SGLang] OpenAI 호환 API: Chat, Completions, Embedding 엔드포인트 구현SGLang의 OpenAI 호환 API 레이어를 분석한다. /v1/chat/completions, /v1/completions, /v1/embeddings 엔드포인트의 구현, 프로토콜 변환, 스트리밍 응답 처리를 코드와 함께 살펴본다.#sglang#OpenAI API#Chat Completions#Streaming2026년 4월 9일댓글 수 로딩 중
[SGLang] Engine: 멀티프로세스 오케스트레이터의 설계와 구현SGLang Engine 클래스의 멀티프로세스 아키텍처를 분석한다. ZMQ IPC 기반 프로세스 간 통신, TokenizerManager-Scheduler-DetokenizerManager 파이프라인, 프로세스 생성과 라이프사이클 관리를 코드와 함께 살펴본다.#sglang#Engine#Multiprocessing#ZMQ IPC2026년 4월 9일댓글 수 로딩 중
[SGLang] FastAPI 기반 HTTP 서버: 비동기 추론 서빙의 진입점SGLang의 FastAPI 기반 HTTP 서버 구현을 분석한다. 라우트 등록, 미들웨어 구성, OpenAI 호환 핸들러 초기화, 비동기 요청 처리 흐름을 코드와 함께 살펴본다.#sglang#HTTP Server#FastAPI#LLM Serving2026년 4월 9일댓글 수 로딩 중
[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트#sglang#Architecture#LLM Inference#RadixAttention2026년 4월 9일댓글 수 로딩 중
[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.#sglang#LLM#AMD GPU#벤치마크#최적화#CI/CD2026년 4월 9일댓글 수 로딩 중
[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석#sglang#performance#optimization#torch.compile#fusion#CUDA2026년 4월 7일댓글 수 로딩 중
[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.#sglang#performance#CI#AMD#Qwen3.5#FP8#benchmarking2026년 4월 7일댓글 수 로딩 중
[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석#Mamba#Cache Optimization#Performance Tuning#LLM#sglang2026년 3월 31일댓글 수 로딩 중