[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.#sglang#Sliding Window Attention#SWA Cache#Memory Optimization2026년 4월 10일댓글 수 로딩 중
[SGLang] HiRadixCache: 계층적 GPU/CPU/Disk KV 캐시SGLang의 HiRadixCache를 분석한다. GPU → CPU → Disk 3계층 캐시 구조, 핫/콜드 데이터 자동 이동, 대규모 컨텍스트 지원을 코드와 함께 살펴본다.#sglang#HiRadixCache#Hierarchical Cache#CPU Offloading2026년 4월 10일댓글 수 로딩 중
[SGLang] Allocator: 토큰-KV 풀 할당 전략의 설계SGLang의 메모리 Allocator를 분석한다. 토큰을 KV 캐시 풀에 매핑하는 할당 전략, 연속/분산 할당 모드, 메모리 단편화 방지를 코드와 함께 살펴본다.#sglang#Allocator#Memory Allocation#KV Pool2026년 4월 10일댓글 수 로딩 중
[SGLang] GPU Memory Pool: 블록 기반 KV 캐시 메모리 할당SGLang의 GPU Memory Pool을 분석한다. 사전 할당된 GPU 메모리 블록 관리, KV 캐시용 메모리 풀 설계, 동적 할당/해제 전략을 코드와 함께 살펴본다.#sglang#Memory Pool#GPU Memory#Block Allocation2026년 4월 10일댓글 수 로딩 중
[SGLang] C++ Radix Tree: 고성능 캐시를 위한 네이티브 구현SGLang의 C++ Radix Tree 구현을 분석한다. Python 바인딩, V2 트리 구조의 노드 설계, 메모리 효율적 탐색과 삽입 알고리즘을 코드와 함께 살펴본다.#sglang#C++ Radix Tree#Native Implementation#Performance2026년 4월 10일댓글 수 로딩 중
[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#RadixAttention#Prefix Caching#Radix Tree#KV Cache2026년 4월 10일댓글 수 로딩 중
[SGLang] Prefill Delayer: 전략적 프리필 지연으로 디코드 처리량 극대화SGLang의 Prefill Delayer를 분석한다. 프리필 요청을 의도적으로 지연시켜 디코드 배치의 처리량을 극대화하는 전략, 지연 조건과 임계값 설정을 코드와 함께 살펴본다.#sglang#Prefill Delay#Decode Throughput#Scheduling Strategy2026년 4월 10일댓글 수 로딩 중
[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.#sglang#Data Parallelism#DP Attention#Load Balancing2026년 4월 10일댓글 수 로딩 중
[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.#sglang#Pipeline Parallelism#Scheduler Mixin#Micro-batch2026년 4월 10일댓글 수 로딩 중
[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.#sglang#Continuous Batching#Chunked Prefill#Dynamic Batching2026년 4월 10일댓글 수 로딩 중
[SGLang] 스케줄링 정책: FCFS, LPM, LOF, DFS-Weight 비교 분석SGLang의 스케줄링 정책을 분석한다. FCFS, LPM, LOF, DFS-Weight, Routing-Key 등 정책별 구현, 프리픽스 캐시 매칭과의 상호작용, 정책 선택이 throughput에 미치는 영향을 코드와 함께 살펴본다.#sglang#Scheduling Policy#FCFS#LPM#DFS-Weight2026년 4월 10일댓글 수 로딩 중
[SGLang] ScheduleBatch & Req: 배치 데이터 구조의 설계와 생명주기SGLang의 핵심 데이터 구조 Req와 ScheduleBatch를 분석한다. 요청의 생명주기, KV 캐시 메타데이터 관리, 배치 구성과 메모리 풀 연결을 코드와 함께 살펴본다.#sglang#ScheduleBatch#Request Lifecycle#Data Structures2026년 4월 10일댓글 수 로딩 중
[SGLang] Zero-Overhead CPU Scheduler: 배치 스케줄링의 핵심 설계SGLang의 Zero-Overhead CPU Scheduler를 분석한다. 기존 GPU-bound 스케줄러 대비 CPU에서의 오버헤드 없는 배치 결정, 메인 루프 구조, Prefill/Decode 분리를 코드와 함께 살펴본다.#sglang#Scheduler#Zero-Overhead#Batch Scheduling2026년 4월 10일댓글 수 로딩 중
[SGLang] Multi-Tokenizer: 다중 모델 토크나이저 동시 관리SGLang의 Multi-Tokenizer 시스템을 분석한다. 여러 모델의 토크나이저를 동시에 관리하는 믹스인 패턴, 토크나이저 풀 운영, 동적 로딩 전략을 코드와 함께 살펴본다.#sglang#Multi-Tokenizer#Mixin#Dynamic Loading2026년 4월 10일댓글 수 로딩 중
[SGLang] IO 데이터 구조: 요청에서 응답까지의 직렬화 설계SGLang의 IO 데이터 구조를 분석한다. GenerateReqInput, TokenizedGenerateReqInput, BatchTokenIDOutput 등 요청-응답 파이프라인의 핵심 데이터 클래스를 코드와 함께 살펴본다.#sglang#Data Structures#Serialization#IPC2026년 4월 10일댓글 수 로딩 중
[SGLang] DetokenizerManager: 스트리밍 디토큰화와 증분 출력SGLang DetokenizerManager의 스트리밍 디토큰화를 분석한다. 토큰 ID를 텍스트로 변환하는 과정, 증분 출력 처리, 스트리밍/비스트리밍 모드의 차이를 코드와 함께 살펴본다.#sglang#Detokenizer#Streaming#Incremental Output2026년 4월 10일댓글 수 로딩 중
[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.#sglang#Tokenizer#Async Pipeline#ZMQ IPC2026년 4월 10일댓글 수 로딩 중
[SGLang] Chat Template 관리: Jinja 템플릿과 모델별 대화 포맷SGLang의 Chat Template 시스템을 분석한다. ChatTemplate 클래스, Jinja2 기반 렌더링, Llama·Qwen·DeepSeek 등 모델별 대화 포맷 매핑을 코드와 함께 살펴본다.#sglang#Chat Template#Jinja2#Conversation Format2026년 4월 10일댓글 수 로딩 중
[SGLang] 멀티 백엔드: OpenAI, Anthropic, VertexAI, LiteLLM 통합SGLang의 멀티 백엔드 추상화를 분석한다. BaseBackend 인터페이스, OpenAI·Anthropic·VertexAI·LiteLLM 백엔드 구현, RuntimeEndpoint를 통한 로컬 서버 연결을 코드와 함께 살펴본다.#sglang#Backend#Multi-Provider#API Abstraction2026년 4월 10일댓글 수 로딩 중
[SGLang] Interpreter: SGL 프로그램 실행 엔진의 설계와 구현SGLang Interpreter의 실행 엔진을 분석한다. StreamExecutor를 통한 스트리밍 실행, ProgramState 관리, 백엔드 연결 및 호출, 배치 실행 최적화를 코드와 함께 살펴본다.#sglang#Interpreter#StreamExecutor#Program Execution2026년 4월 10일댓글 수 로딩 중