[SGLang] 통신 연산: AllReduce, Broadcast, AllGather 구현SGLang의 분산 통신 연산을 분석한다. AllReduce, Broadcast, AllGather 등 집합 통신의 구현, 커스텀 올리듀스와의 연동을 코드와 함께 살펴본다.#sglang#AllReduce#Broadcast#Collective Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Parallel State: TP/PP/DP/EP 병렬화 상태 관리SGLang의 Parallel State를 분석한다. Tensor/Pipeline/Data/Expert 4종 병렬화의 프로세스 그룹 관리, 초기화 순서, 그룹 간 관계를 코드와 함께 살펴본다.#sglang#Parallel State#Process Group#TP PP DP EP2026년 4월 13일댓글 수 로딩 중
[SGLang] Reasoner Grammar: 추론 체인 제약 생성SGLang의 Reasoner Grammar를 분석한다. Chain-of-Thought 추론 과정에서 구조화된 출력을 제약하는 방식, 추론 단계와 응답 단계의 분리를 코드와 함께 살펴본다.#sglang#Reasoner Grammar#Chain-of-Thought#Reasoning Constraint2026년 4월 13일댓글 수 로딩 중
[SGLang] LLGuidance: Microsoft의 문법 제약 백엔드SGLang의 LLGuidance 백엔드를 분석한다. Microsoft의 LLGuidance 라이브러리 통합, XGrammar/Outlines 대비 차별점, 토큰 마스크 생성을 코드와 함께 살펴본다.#sglang#LLGuidance#Microsoft#Grammar Backend2026년 4월 13일댓글 수 로딩 중
[SGLang] Outlines: FSM 기반 제약 생성과 Jump-Forward 최적화SGLang의 Outlines 백엔드를 분석한다. Finite State Machine 기반 토큰 제약, Jump-Forward 최적화로 확정 토큰을 건너뛰는 기법을 코드와 함께 살펴본다.#sglang#Outlines#FSM#Jump-Forward#Constrained Decoding2026년 4월 13일댓글 수 로딩 중
[SGLang] XGrammar: JSON/Regex 제약 백엔드SGLang의 XGrammar 백엔드를 분석한다. JSON Schema와 Regex 패턴을 문법으로 변환하여 토큰 생성을 제약하는 구현, 비트마스크 기반 필터링을 코드와 함께 살펴본다.#sglang#XGrammar#JSON Schema#Regex#Token Masking2026년 4월 13일댓글 수 로딩 중
[SGLang] Grammar Manager: 구조화된 출력 생성의 통합 관리SGLang의 Grammar Manager를 분석한다. JSON Schema, Regex, EBNF 등 다양한 제약 조건을 통합 관리하는 구조, 백엔드 디스패치, 토큰 마스킹 과정을 코드와 함께 살펴본다.#sglang#Grammar Manager#Structured Output#JSON Schema#Regex2026년 4월 13일댓글 수 로딩 중
[SGLang] Tree Search & Verification: 트리 기반 추측과 검증SGLang의 트리 탐색과 검증 알고리즘을 분석한다. 후보 토큰을 트리 구조로 구성하여 병렬 검증하는 방식, 트리 구축 전략, acceptance 판정을 코드와 함께 살펴본다.#sglang#Tree Search#Verification#Token Tree#Acceptance2026년 4월 13일댓글 수 로딩 중
[SGLang] EAGLE CUDA Graph: 드래프트 모델 가속SGLang의 EAGLE CUDA Graph Runner를 분석한다. 드래프트 모델의 반복 실행을 CUDA Graph로 캡처하여 오버헤드를 제거하는 전략을 코드와 함께 살펴본다.#sglang#EAGLE CUDA Graph#Draft Acceleration#Graph Capture2026년 4월 13일댓글 수 로딩 중
[SGLang] DFlash: Flash 기반 고속 드래프팅SGLang의 DFlash를 분석한다. Flash Attention을 활용한 고속 드래프트 생성, 기존 EAGLE 대비 드래프팅 속도 향상을 코드와 함께 살펴본다.#sglang#DFlash#Flash Draft#Fast Speculation2026년 4월 12일댓글 수 로딩 중
[SGLang] N-gram Draft: 모델 프리 투기적 디코딩SGLang의 N-gram Draft를 분석한다. 별도 드래프트 모델 없이 N-gram 통계로 토큰을 추측하는 방식, 코퍼스 관리, 외부 코퍼스 지원을 코드와 함께 살펴본다.#sglang#N-gram#Model-free Draft#Corpus2026년 4월 12일댓글 수 로딩 중
[SGLang] Multi-Layer EAGLE: 다계층 드래프트로 더 긴 추측SGLang의 Multi-Layer EAGLE을 분석한다. 다계층 드래프트 모델로 더 긴 토큰 시퀀스를 추측하는 전략, 단일 계층 EAGLE 대비 향상을 코드와 함께 살펴본다.#sglang#Multi-Layer EAGLE#Deep Draft#Extended Speculation2026년 4월 12일댓글 수 로딩 중
[SGLang] EAGLE v2: 개선된 드래프트 알고리즘SGLang의 EAGLE v2를 분석한다. EAGLE v1 대비 개선점, 향상된 트리 구조, 더 높은 acceptance rate를 코드와 함께 살펴본다.#sglang#EAGLE v2#Improved Draft#Acceptance Rate2026년 4월 12일댓글 수 로딩 중
[SGLang] EAGLE: 은닉 상태 기반 드래프트 모델SGLang의 EAGLE 구현을 분석한다. 타겟 모델의 은닉 상태를 활용한 드래프트 생성, 기존 독립 드래프트 모델 대비 정확도 향상, 트리 기반 검증을 코드와 함께 살펴본다.#sglang#EAGLE#Draft Model#Hidden States#Speculative2026년 4월 12일댓글 수 로딩 중
[SGLang] Speculative Decoding 개요: 원리와 구현 아키텍처SGLang의 Speculative Decoding 전체 아키텍처를 분석한다. 드래프트-검증 2단계 파이프라인의 원리, 기존 Autoregressive 대비 2-3x 속도 향상, SGLang의 구현 방식을 코드와 함께 살펴본다.#sglang#Speculative Decoding#Draft-Verify#Acceleration2026년 4월 12일댓글 수 로딩 중
[SGLang] FlashInfer + TensorRT-LLM MoE: 하이브리드 MoE 커널SGLang의 FlashInfer/TensorRT-LLM MoE를 분석한다. FlashInfer와 TensorRT-LLM 커널을 결합한 하이브리드 MoE 구현, 커널별 장단점 비교를 코드와 함께 살펴본다.#sglang#FlashInfer MoE#TensorRT-LLM#Hybrid Kernel2026년 4월 12일댓글 수 로딩 중
[SGLang] EPLB: Expert-Parallel Load Balancing 알고리즘SGLang의 EPLB를 분석한다. 전문가 병렬 환경에서의 부하 균형 알고리즘, DeepSeek 스타일 로드 밸런싱, 전문가 위치 추적과 재분배를 코드와 함께 살펴본다.#sglang#EPLB#Load Balancing#Expert Distribution2026년 4월 12일댓글 수 로딩 중
[SGLang] Elastic Expert Parallelism: 동적 전문가 스케일링SGLang의 Elastic EP를 분석한다. 부하에 따라 전문가를 동적으로 스케일링하는 탄력적 병렬화, 전문가 백업 관리, 장애 복구를 코드와 함께 살펴본다.#sglang#Elastic EP#Dynamic Scaling#Expert Backup2026년 4월 12일댓글 수 로딩 중
[SGLang] MoE 라우팅: 토큰에서 전문가로의 배분 알고리즘SGLang의 MoE 라우팅 알고리즘을 분석한다. Top-K 게이트 선택, 로드 밸런싱, 토큰 드롭 전략, Expert Choice vs Token Choice 비교를 코드와 함께 살펴본다.#sglang#MoE Routing#Top-K Gate#Load Balancing2026년 4월 12일댓글 수 로딩 중
[SGLang] Expert Parallel MoE: 분산 전문가 레이어 구현SGLang의 Expert Parallel MoE를 분석한다. 전문가를 여러 GPU에 분산하는 EP 구조, All-to-All 통신, 로컬/리모트 전문가 라우팅을 코드와 함께 살펴본다.#sglang#Expert Parallelism#EP-MoE#All-to-All#Distributed2026년 4월 12일댓글 수 로딩 중