SGLang

[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계

SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.

#sglang #Sliding Window Attention #SWA Cache #Memory Optimization

2026년 4월 10일

[SGLang] HiRadixCache: 계층적 GPU/CPU/Disk KV 캐시

SGLang의 HiRadixCache를 분석한다. GPU → CPU → Disk 3계층 캐시 구조, 핫/콜드 데이터 자동 이동, 대규모 컨텍스트 지원을 코드와 함께 살펴본다.

#sglang #HiRadixCache #Hierarchical Cache #CPU Offloading

2026년 4월 10일

[SGLang] Allocator: 토큰-KV 풀 할당 전략의 설계

SGLang의 메모리 Allocator를 분석한다. 토큰을 KV 캐시 풀에 매핑하는 할당 전략, 연속/분산 할당 모드, 메모리 단편화 방지를 코드와 함께 살펴본다.

#sglang #Allocator #Memory Allocation #KV Pool

2026년 4월 10일

[SGLang] GPU Memory Pool: 블록 기반 KV 캐시 메모리 할당

SGLang의 GPU Memory Pool을 분석한다. 사전 할당된 GPU 메모리 블록 관리, KV 캐시용 메모리 풀 설계, 동적 할당/해제 전략을 코드와 함께 살펴본다.

#sglang #Memory Pool #GPU Memory #Block Allocation

2026년 4월 10일

[SGLang] C++ Radix Tree: 고성능 캐시를 위한 네이티브 구현

SGLang의 C++ Radix Tree 구현을 분석한다. Python 바인딩, V2 트리 구조의 노드 설계, 메모리 효율적 탐색과 삽입 알고리즘을 코드와 함께 살펴본다.

#sglang #C++ Radix Tree #Native Implementation #Performance

2026년 4월 10일

[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심

SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #RadixAttention #Prefix Caching #Radix Tree #KV Cache

2026년 4월 10일

[SGLang] Prefill Delayer: 전략적 프리필 지연으로 디코드 처리량 극대화

SGLang의 Prefill Delayer를 분석한다. 프리필 요청을 의도적으로 지연시켜 디코드 배치의 처리량을 극대화하는 전략, 지연 조건과 임계값 설정을 코드와 함께 살펴본다.

#sglang #Prefill Delay #Decode Throughput #Scheduling Strategy

2026년 4월 10일

[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인

SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.

#sglang #Data Parallelism #DP Attention #Load Balancing

2026년 4월 10일

[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계

SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.

#sglang #Pipeline Parallelism #Scheduler Mixin #Micro-batch

2026년 4월 10일

[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심

SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.

#sglang #Continuous Batching #Chunked Prefill #Dynamic Batching

2026년 4월 10일

[SGLang] 스케줄링 정책: FCFS, LPM, LOF, DFS-Weight 비교 분석

SGLang의 스케줄링 정책을 분석한다. FCFS, LPM, LOF, DFS-Weight, Routing-Key 등 정책별 구현, 프리픽스 캐시 매칭과의 상호작용, 정책 선택이 throughput에 미치는 영향을 코드와 함께 살펴본다.

#sglang #Scheduling Policy #FCFS #LPM #DFS-Weight

2026년 4월 10일

[SGLang] ScheduleBatch & Req: 배치 데이터 구조의 설계와 생명주기

SGLang의 핵심 데이터 구조 Req와 ScheduleBatch를 분석한다. 요청의 생명주기, KV 캐시 메타데이터 관리, 배치 구성과 메모리 풀 연결을 코드와 함께 살펴본다.

#sglang #ScheduleBatch #Request Lifecycle #Data Structures

2026년 4월 10일

[SGLang] Zero-Overhead CPU Scheduler: 배치 스케줄링의 핵심 설계

SGLang의 Zero-Overhead CPU Scheduler를 분석한다. 기존 GPU-bound 스케줄러 대비 CPU에서의 오버헤드 없는 배치 결정, 메인 루프 구조, Prefill/Decode 분리를 코드와 함께 살펴본다.

#sglang #Scheduler #Zero-Overhead #Batch Scheduling

2026년 4월 10일

[SGLang] Multi-Tokenizer: 다중 모델 토크나이저 동시 관리

SGLang의 Multi-Tokenizer 시스템을 분석한다. 여러 모델의 토크나이저를 동시에 관리하는 믹스인 패턴, 토크나이저 풀 운영, 동적 로딩 전략을 코드와 함께 살펴본다.

#sglang #Multi-Tokenizer #Mixin #Dynamic Loading

2026년 4월 10일

[SGLang] IO 데이터 구조: 요청에서 응답까지의 직렬화 설계

SGLang의 IO 데이터 구조를 분석한다. GenerateReqInput, TokenizedGenerateReqInput, BatchTokenIDOutput 등 요청-응답 파이프라인의 핵심 데이터 클래스를 코드와 함께 살펴본다.

#sglang #Data Structures #Serialization #IPC

2026년 4월 10일

[SGLang] DetokenizerManager: 스트리밍 디토큰화와 증분 출력

SGLang DetokenizerManager의 스트리밍 디토큰화를 분석한다. 토큰 ID를 텍스트로 변환하는 과정, 증분 출력 처리, 스트리밍/비스트리밍 모드의 차이를 코드와 함께 살펴본다.

#sglang #Detokenizer #Streaming #Incremental Output

2026년 4월 10일

[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현

SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.

#sglang #Tokenizer #Async Pipeline #ZMQ IPC

2026년 4월 10일

[SGLang] Chat Template 관리: Jinja 템플릿과 모델별 대화 포맷

SGLang의 Chat Template 시스템을 분석한다. ChatTemplate 클래스, Jinja2 기반 렌더링, Llama·Qwen·DeepSeek 등 모델별 대화 포맷 매핑을 코드와 함께 살펴본다.

#sglang #Chat Template #Jinja2 #Conversation Format

2026년 4월 10일

[SGLang] 멀티 백엔드: OpenAI, Anthropic, VertexAI, LiteLLM 통합

SGLang의 멀티 백엔드 추상화를 분석한다. BaseBackend 인터페이스, OpenAI·Anthropic·VertexAI·LiteLLM 백엔드 구현, RuntimeEndpoint를 통한 로컬 서버 연결을 코드와 함께 살펴본다.

#sglang #Backend #Multi-Provider #API Abstraction

2026년 4월 10일

[SGLang] Interpreter: SGL 프로그램 실행 엔진의 설계와 구현

SGLang Interpreter의 실행 엔진을 분석한다. StreamExecutor를 통한 스트리밍 실행, ProgramState 관리, 백엔드 연결 및 호출, 배치 실행 최적화를 코드와 함께 살펴본다.

#sglang #Interpreter #StreamExecutor #Program Execution

2026년 4월 10일