SGLang

[SGLang] 통신 연산: AllReduce, Broadcast, AllGather 구현

SGLang의 분산 통신 연산을 분석한다. AllReduce, Broadcast, AllGather 등 집합 통신의 구현, 커스텀 올리듀스와의 연동을 코드와 함께 살펴본다.

#sglang #AllReduce #Broadcast #Collective Communication

2026년 4월 13일

[SGLang] Parallel State: TP/PP/DP/EP 병렬화 상태 관리

SGLang의 Parallel State를 분석한다. Tensor/Pipeline/Data/Expert 4종 병렬화의 프로세스 그룹 관리, 초기화 순서, 그룹 간 관계를 코드와 함께 살펴본다.

#sglang #Parallel State #Process Group #TP PP DP EP

2026년 4월 13일

[SGLang] Reasoner Grammar: 추론 체인 제약 생성

SGLang의 Reasoner Grammar를 분석한다. Chain-of-Thought 추론 과정에서 구조화된 출력을 제약하는 방식, 추론 단계와 응답 단계의 분리를 코드와 함께 살펴본다.

#sglang #Reasoner Grammar #Chain-of-Thought #Reasoning Constraint

2026년 4월 13일

[SGLang] LLGuidance: Microsoft의 문법 제약 백엔드

SGLang의 LLGuidance 백엔드를 분석한다. Microsoft의 LLGuidance 라이브러리 통합, XGrammar/Outlines 대비 차별점, 토큰 마스크 생성을 코드와 함께 살펴본다.

#sglang #LLGuidance #Microsoft #Grammar Backend

2026년 4월 13일

[SGLang] Outlines: FSM 기반 제약 생성과 Jump-Forward 최적화

SGLang의 Outlines 백엔드를 분석한다. Finite State Machine 기반 토큰 제약, Jump-Forward 최적화로 확정 토큰을 건너뛰는 기법을 코드와 함께 살펴본다.

#sglang #Outlines #FSM #Jump-Forward #Constrained Decoding

2026년 4월 13일

[SGLang] XGrammar: JSON/Regex 제약 백엔드

SGLang의 XGrammar 백엔드를 분석한다. JSON Schema와 Regex 패턴을 문법으로 변환하여 토큰 생성을 제약하는 구현, 비트마스크 기반 필터링을 코드와 함께 살펴본다.

#sglang #XGrammar #JSON Schema #Regex #Token Masking

2026년 4월 13일

[SGLang] Grammar Manager: 구조화된 출력 생성의 통합 관리

SGLang의 Grammar Manager를 분석한다. JSON Schema, Regex, EBNF 등 다양한 제약 조건을 통합 관리하는 구조, 백엔드 디스패치, 토큰 마스킹 과정을 코드와 함께 살펴본다.

#sglang #Grammar Manager #Structured Output #JSON Schema #Regex

2026년 4월 13일

[SGLang] Tree Search & Verification: 트리 기반 추측과 검증

SGLang의 트리 탐색과 검증 알고리즘을 분석한다. 후보 토큰을 트리 구조로 구성하여 병렬 검증하는 방식, 트리 구축 전략, acceptance 판정을 코드와 함께 살펴본다.

#sglang #Tree Search #Verification #Token Tree #Acceptance

2026년 4월 13일

[SGLang] EAGLE CUDA Graph: 드래프트 모델 가속

SGLang의 EAGLE CUDA Graph Runner를 분석한다. 드래프트 모델의 반복 실행을 CUDA Graph로 캡처하여 오버헤드를 제거하는 전략을 코드와 함께 살펴본다.

#sglang #EAGLE CUDA Graph #Draft Acceleration #Graph Capture

2026년 4월 13일

[SGLang] DFlash: Flash 기반 고속 드래프팅

SGLang의 DFlash를 분석한다. Flash Attention을 활용한 고속 드래프트 생성, 기존 EAGLE 대비 드래프팅 속도 향상을 코드와 함께 살펴본다.

#sglang #DFlash #Flash Draft #Fast Speculation

2026년 4월 12일

[SGLang] N-gram Draft: 모델 프리 투기적 디코딩

SGLang의 N-gram Draft를 분석한다. 별도 드래프트 모델 없이 N-gram 통계로 토큰을 추측하는 방식, 코퍼스 관리, 외부 코퍼스 지원을 코드와 함께 살펴본다.

#sglang #N-gram #Model-free Draft #Corpus

2026년 4월 12일

[SGLang] Multi-Layer EAGLE: 다계층 드래프트로 더 긴 추측

SGLang의 Multi-Layer EAGLE을 분석한다. 다계층 드래프트 모델로 더 긴 토큰 시퀀스를 추측하는 전략, 단일 계층 EAGLE 대비 향상을 코드와 함께 살펴본다.

#sglang #Multi-Layer EAGLE #Deep Draft #Extended Speculation

2026년 4월 12일

[SGLang] EAGLE v2: 개선된 드래프트 알고리즘

SGLang의 EAGLE v2를 분석한다. EAGLE v1 대비 개선점, 향상된 트리 구조, 더 높은 acceptance rate를 코드와 함께 살펴본다.

#sglang #EAGLE v2 #Improved Draft #Acceptance Rate

2026년 4월 12일

[SGLang] EAGLE: 은닉 상태 기반 드래프트 모델

SGLang의 EAGLE 구현을 분석한다. 타겟 모델의 은닉 상태를 활용한 드래프트 생성, 기존 독립 드래프트 모델 대비 정확도 향상, 트리 기반 검증을 코드와 함께 살펴본다.

#sglang #EAGLE #Draft Model #Hidden States #Speculative

2026년 4월 12일

[SGLang] Speculative Decoding 개요: 원리와 구현 아키텍처

SGLang의 Speculative Decoding 전체 아키텍처를 분석한다. 드래프트-검증 2단계 파이프라인의 원리, 기존 Autoregressive 대비 2-3x 속도 향상, SGLang의 구현 방식을 코드와 함께 살펴본다.

#sglang #Speculative Decoding #Draft-Verify #Acceleration

2026년 4월 12일

[SGLang] FlashInfer + TensorRT-LLM MoE: 하이브리드 MoE 커널

SGLang의 FlashInfer/TensorRT-LLM MoE를 분석한다. FlashInfer와 TensorRT-LLM 커널을 결합한 하이브리드 MoE 구현, 커널별 장단점 비교를 코드와 함께 살펴본다.

#sglang #FlashInfer MoE #TensorRT-LLM #Hybrid Kernel

2026년 4월 12일

[SGLang] EPLB: Expert-Parallel Load Balancing 알고리즘

SGLang의 EPLB를 분석한다. 전문가 병렬 환경에서의 부하 균형 알고리즘, DeepSeek 스타일 로드 밸런싱, 전문가 위치 추적과 재분배를 코드와 함께 살펴본다.

#sglang #EPLB #Load Balancing #Expert Distribution

2026년 4월 12일

[SGLang] Elastic Expert Parallelism: 동적 전문가 스케일링

SGLang의 Elastic EP를 분석한다. 부하에 따라 전문가를 동적으로 스케일링하는 탄력적 병렬화, 전문가 백업 관리, 장애 복구를 코드와 함께 살펴본다.

#sglang #Elastic EP #Dynamic Scaling #Expert Backup

2026년 4월 12일

[SGLang] MoE 라우팅: 토큰에서 전문가로의 배분 알고리즘

SGLang의 MoE 라우팅 알고리즘을 분석한다. Top-K 게이트 선택, 로드 밸런싱, 토큰 드롭 전략, Expert Choice vs Token Choice 비교를 코드와 함께 살펴본다.

#sglang #MoE Routing #Top-K Gate #Load Balancing

2026년 4월 12일

[SGLang] Expert Parallel MoE: 분산 전문가 레이어 구현

SGLang의 Expert Parallel MoE를 분석한다. 전문가를 여러 GPU에 분산하는 EP 구조, All-to-All 통신, 로컬/리모트 전문가 라우팅을 코드와 함께 살펴본다.

#sglang #Expert Parallelism #EP-MoE #All-to-All #Distributed

2026년 4월 12일