[SGLang] 중간 표현(IR): SglGen, SglSelect, SglExpr의 설계SGLang의 중간 표현(Intermediate Representation) 시스템을 분석한다. SGL 코드가 IR로 변환되는 과정, SglGen·SglSelect·SglExpr 노드의 구조, 컴파일러 이론과의 연관성을 코드와 함께 살펴본다.#sglang#IR#Intermediate Representation#Compiler Design2026년 4월 10일댓글 수 로딩 중
[SGLang] SGL 언어: LLM 프로그래밍을 위한 DSL 설계SGLang의 프론트엔드 DSL을 분석한다. gen(), select(), @function 데코레이터의 설계 철학, 기존 프롬프트 엔지니어링(LangChain, raw API)의 한계를 어떻게 극복하는지, 실제 사용 패턴을 코드와 함께 살펴본다.#sglang#DSL#Frontend Language#LLM Programming2026년 4월 9일댓글 수 로딩 중
[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.#sglang#ASR#Speech Recognition#Whisper#Transcription2026년 4월 9일댓글 수 로딩 중
[SGLang] Function Calling & Tool Use: 20+ 모델별 포맷 파서 구현SGLang의 Function Calling 파이프라인을 분석한다. FunctionCallParser의 출력 파싱 구조, 20+ 모델별 포맷 감지기(Qwen, DeepSeek, Gemma 등), Tool Server를 통한 함수 실행 흐름을 코드와 함께 살펴본다.#sglang#Function Calling#Tool Use#Format Detection2026년 4월 9일댓글 수 로딩 중
[SGLang] gRPC 서버: 분산 추론을 위한 고성능 통신 계층SGLang의 gRPC 서버 구현을 분석한다. HTTP 대비 gRPC의 장점, Protobuf 메시지 정의, Streaming RPC를 통한 실시간 토큰 전달, 분산 환경에서의 활용 방식을 코드와 함께 살펴본다.#sglang#gRPC#Distributed Inference#Protobuf2026년 4월 9일댓글 수 로딩 중
[SGLang] Anthropic/Ollama 호환 API: 멀티 프로토콜 LLM 서빙SGLang의 Anthropic Messages API와 Ollama API 호환 레이어를 분석한다. 프로토콜 변환, Smart Router를 통한 지능형 라우팅, 세 가지 API 프로토콜 간 차이를 코드와 함께 비교한다.#sglang#Anthropic API#Ollama API#Multi-Protocol2026년 4월 9일댓글 수 로딩 중
[SGLang] OpenAI 호환 API: Chat, Completions, Embedding 엔드포인트 구현SGLang의 OpenAI 호환 API 레이어를 분석한다. /v1/chat/completions, /v1/completions, /v1/embeddings 엔드포인트의 구현, 프로토콜 변환, 스트리밍 응답 처리를 코드와 함께 살펴본다.#sglang#OpenAI API#Chat Completions#Streaming2026년 4월 9일댓글 수 로딩 중
[SGLang] Engine: 멀티프로세스 오케스트레이터의 설계와 구현SGLang Engine 클래스의 멀티프로세스 아키텍처를 분석한다. ZMQ IPC 기반 프로세스 간 통신, TokenizerManager-Scheduler-DetokenizerManager 파이프라인, 프로세스 생성과 라이프사이클 관리를 코드와 함께 살펴본다.#sglang#Engine#Multiprocessing#ZMQ IPC2026년 4월 9일댓글 수 로딩 중
[SGLang] FastAPI 기반 HTTP 서버: 비동기 추론 서빙의 진입점SGLang의 FastAPI 기반 HTTP 서버 구현을 분석한다. 라우트 등록, 미들웨어 구성, OpenAI 호환 핸들러 초기화, 비동기 요청 처리 흐름을 코드와 함께 살펴본다.#sglang#HTTP Server#FastAPI#LLM Serving2026년 4월 9일댓글 수 로딩 중
[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트#sglang#Architecture#LLM Inference#RadixAttention2026년 4월 9일댓글 수 로딩 중