[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.#sglang#Continuous Batching#Chunked Prefill#Dynamic Batching2026년 4월 10일댓글 수 로딩 중
[SGLang] 스케줄링 정책: FCFS, LPM, LOF, DFS-Weight 비교 분석SGLang의 스케줄링 정책을 분석한다. FCFS, LPM, LOF, DFS-Weight, Routing-Key 등 정책별 구현, 프리픽스 캐시 매칭과의 상호작용, 정책 선택이 throughput에 미치는 영향을 코드와 함께 살펴본다.#sglang#Scheduling Policy#FCFS#LPM#DFS-Weight2026년 4월 10일댓글 수 로딩 중
[SGLang] ScheduleBatch & Req: 배치 데이터 구조의 설계와 생명주기SGLang의 핵심 데이터 구조 Req와 ScheduleBatch를 분석한다. 요청의 생명주기, KV 캐시 메타데이터 관리, 배치 구성과 메모리 풀 연결을 코드와 함께 살펴본다.#sglang#ScheduleBatch#Request Lifecycle#Data Structures2026년 4월 10일댓글 수 로딩 중
[SGLang] Zero-Overhead CPU Scheduler: 배치 스케줄링의 핵심 설계SGLang의 Zero-Overhead CPU Scheduler를 분석한다. 기존 GPU-bound 스케줄러 대비 CPU에서의 오버헤드 없는 배치 결정, 메인 루프 구조, Prefill/Decode 분리를 코드와 함께 살펴본다.#sglang#Scheduler#Zero-Overhead#Batch Scheduling2026년 4월 10일댓글 수 로딩 중
[SGLang] Multi-Tokenizer: 다중 모델 토크나이저 동시 관리SGLang의 Multi-Tokenizer 시스템을 분석한다. 여러 모델의 토크나이저를 동시에 관리하는 믹스인 패턴, 토크나이저 풀 운영, 동적 로딩 전략을 코드와 함께 살펴본다.#sglang#Multi-Tokenizer#Mixin#Dynamic Loading2026년 4월 10일댓글 수 로딩 중
[SGLang] IO 데이터 구조: 요청에서 응답까지의 직렬화 설계SGLang의 IO 데이터 구조를 분석한다. GenerateReqInput, TokenizedGenerateReqInput, BatchTokenIDOutput 등 요청-응답 파이프라인의 핵심 데이터 클래스를 코드와 함께 살펴본다.#sglang#Data Structures#Serialization#IPC2026년 4월 10일댓글 수 로딩 중
[SGLang] DetokenizerManager: 스트리밍 디토큰화와 증분 출력SGLang DetokenizerManager의 스트리밍 디토큰화를 분석한다. 토큰 ID를 텍스트로 변환하는 과정, 증분 출력 처리, 스트리밍/비스트리밍 모드의 차이를 코드와 함께 살펴본다.#sglang#Detokenizer#Streaming#Incremental Output2026년 4월 10일댓글 수 로딩 중
[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.#sglang#Tokenizer#Async Pipeline#ZMQ IPC2026년 4월 10일댓글 수 로딩 중
[SGLang] Chat Template 관리: Jinja 템플릿과 모델별 대화 포맷SGLang의 Chat Template 시스템을 분석한다. ChatTemplate 클래스, Jinja2 기반 렌더링, Llama·Qwen·DeepSeek 등 모델별 대화 포맷 매핑을 코드와 함께 살펴본다.#sglang#Chat Template#Jinja2#Conversation Format2026년 4월 10일댓글 수 로딩 중
[SGLang] 멀티 백엔드: OpenAI, Anthropic, VertexAI, LiteLLM 통합SGLang의 멀티 백엔드 추상화를 분석한다. BaseBackend 인터페이스, OpenAI·Anthropic·VertexAI·LiteLLM 백엔드 구현, RuntimeEndpoint를 통한 로컬 서버 연결을 코드와 함께 살펴본다.#sglang#Backend#Multi-Provider#API Abstraction2026년 4월 10일댓글 수 로딩 중
[SGLang] Interpreter: SGL 프로그램 실행 엔진의 설계와 구현SGLang Interpreter의 실행 엔진을 분석한다. StreamExecutor를 통한 스트리밍 실행, ProgramState 관리, 백엔드 연결 및 호출, 배치 실행 최적화를 코드와 함께 살펴본다.#sglang#Interpreter#StreamExecutor#Program Execution2026년 4월 10일댓글 수 로딩 중
[SGLang] 중간 표현(IR): SglGen, SglSelect, SglExpr의 설계SGLang의 중간 표현(Intermediate Representation) 시스템을 분석한다. SGL 코드가 IR로 변환되는 과정, SglGen·SglSelect·SglExpr 노드의 구조, 컴파일러 이론과의 연관성을 코드와 함께 살펴본다.#sglang#IR#Intermediate Representation#Compiler Design2026년 4월 10일댓글 수 로딩 중
[SGLang] SGL 언어: LLM 프로그래밍을 위한 DSL 설계SGLang의 프론트엔드 DSL을 분석한다. gen(), select(), @function 데코레이터의 설계 철학, 기존 프롬프트 엔지니어링(LangChain, raw API)의 한계를 어떻게 극복하는지, 실제 사용 패턴을 코드와 함께 살펴본다.#sglang#DSL#Frontend Language#LLM Programming2026년 4월 9일댓글 수 로딩 중
[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.#sglang#ASR#Speech Recognition#Whisper#Transcription2026년 4월 9일댓글 수 로딩 중
[SGLang] Function Calling & Tool Use: 20+ 모델별 포맷 파서 구현SGLang의 Function Calling 파이프라인을 분석한다. FunctionCallParser의 출력 파싱 구조, 20+ 모델별 포맷 감지기(Qwen, DeepSeek, Gemma 등), Tool Server를 통한 함수 실행 흐름을 코드와 함께 살펴본다.#sglang#Function Calling#Tool Use#Format Detection2026년 4월 9일댓글 수 로딩 중
[SGLang] gRPC 서버: 분산 추론을 위한 고성능 통신 계층SGLang의 gRPC 서버 구현을 분석한다. HTTP 대비 gRPC의 장점, Protobuf 메시지 정의, Streaming RPC를 통한 실시간 토큰 전달, 분산 환경에서의 활용 방식을 코드와 함께 살펴본다.#sglang#gRPC#Distributed Inference#Protobuf2026년 4월 9일댓글 수 로딩 중
[SGLang] Anthropic/Ollama 호환 API: 멀티 프로토콜 LLM 서빙SGLang의 Anthropic Messages API와 Ollama API 호환 레이어를 분석한다. 프로토콜 변환, Smart Router를 통한 지능형 라우팅, 세 가지 API 프로토콜 간 차이를 코드와 함께 비교한다.#sglang#Anthropic API#Ollama API#Multi-Protocol2026년 4월 9일댓글 수 로딩 중
[SGLang] OpenAI 호환 API: Chat, Completions, Embedding 엔드포인트 구현SGLang의 OpenAI 호환 API 레이어를 분석한다. /v1/chat/completions, /v1/completions, /v1/embeddings 엔드포인트의 구현, 프로토콜 변환, 스트리밍 응답 처리를 코드와 함께 살펴본다.#sglang#OpenAI API#Chat Completions#Streaming2026년 4월 9일댓글 수 로딩 중
[SGLang] Engine: 멀티프로세스 오케스트레이터의 설계와 구현SGLang Engine 클래스의 멀티프로세스 아키텍처를 분석한다. ZMQ IPC 기반 프로세스 간 통신, TokenizerManager-Scheduler-DetokenizerManager 파이프라인, 프로세스 생성과 라이프사이클 관리를 코드와 함께 살펴본다.#sglang#Engine#Multiprocessing#ZMQ IPC2026년 4월 9일댓글 수 로딩 중
[SGLang] FastAPI 기반 HTTP 서버: 비동기 추론 서빙의 진입점SGLang의 FastAPI 기반 HTTP 서버 구현을 분석한다. 라우트 등록, 미들웨어 구성, OpenAI 호환 핸들러 초기화, 비동기 요청 처리 흐름을 코드와 함께 살펴본다.#sglang#HTTP Server#FastAPI#LLM Serving2026년 4월 9일댓글 수 로딩 중