최신 포스트

[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석

vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.

#vLLM #Nemotron Nano VL #Pixel Shuffle #최적화 #성능 개선 #PyTorch

2026년 4월 10일

[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석

vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.

#vLLM #ROCm #Triton #Quantization #MI300X #Performance

2026년 4월 10일

[SGLang] Prefill Delayer: 전략적 프리필 지연으로 디코드 처리량 극대화

SGLang의 Prefill Delayer를 분석한다. 프리필 요청을 의도적으로 지연시켜 디코드 배치의 처리량을 극대화하는 전략, 지연 조건과 임계값 설정을 코드와 함께 살펴본다.

#sglang #Prefill Delay #Decode Throughput #Scheduling Strategy

2026년 4월 10일

[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인

SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.

#sglang #Data Parallelism #DP Attention #Load Balancing

2026년 4월 10일

[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계

SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.

#sglang #Pipeline Parallelism #Scheduler Mixin #Micro-batch

2026년 4월 10일

[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심

SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.

#sglang #Continuous Batching #Chunked Prefill #Dynamic Batching

2026년 4월 10일

[SGLang] 스케줄링 정책: FCFS, LPM, LOF, DFS-Weight 비교 분석

SGLang의 스케줄링 정책을 분석한다. FCFS, LPM, LOF, DFS-Weight, Routing-Key 등 정책별 구현, 프리픽스 캐시 매칭과의 상호작용, 정책 선택이 throughput에 미치는 영향을 코드와 함께 살펴본다.

#sglang #Scheduling Policy #FCFS #LPM #DFS-Weight

2026년 4월 10일

[SGLang] ScheduleBatch & Req: 배치 데이터 구조의 설계와 생명주기

SGLang의 핵심 데이터 구조 Req와 ScheduleBatch를 분석한다. 요청의 생명주기, KV 캐시 메타데이터 관리, 배치 구성과 메모리 풀 연결을 코드와 함께 살펴본다.

#sglang #ScheduleBatch #Request Lifecycle #Data Structures

2026년 4월 10일

[SGLang] Zero-Overhead CPU Scheduler: 배치 스케줄링의 핵심 설계

SGLang의 Zero-Overhead CPU Scheduler를 분석한다. 기존 GPU-bound 스케줄러 대비 CPU에서의 오버헤드 없는 배치 결정, 메인 루프 구조, Prefill/Decode 분리를 코드와 함께 살펴본다.

#sglang #Scheduler #Zero-Overhead #Batch Scheduling

2026년 4월 10일

[SGLang] Multi-Tokenizer: 다중 모델 토크나이저 동시 관리

SGLang의 Multi-Tokenizer 시스템을 분석한다. 여러 모델의 토크나이저를 동시에 관리하는 믹스인 패턴, 토크나이저 풀 운영, 동적 로딩 전략을 코드와 함께 살펴본다.

#sglang #Multi-Tokenizer #Mixin #Dynamic Loading

2026년 4월 10일

[SGLang] IO 데이터 구조: 요청에서 응답까지의 직렬화 설계

SGLang의 IO 데이터 구조를 분석한다. GenerateReqInput, TokenizedGenerateReqInput, BatchTokenIDOutput 등 요청-응답 파이프라인의 핵심 데이터 클래스를 코드와 함께 살펴본다.

#sglang #Data Structures #Serialization #IPC

2026년 4월 10일

[SGLang] DetokenizerManager: 스트리밍 디토큰화와 증분 출력

SGLang DetokenizerManager의 스트리밍 디토큰화를 분석한다. 토큰 ID를 텍스트로 변환하는 과정, 증분 출력 처리, 스트리밍/비스트리밍 모드의 차이를 코드와 함께 살펴본다.

#sglang #Detokenizer #Streaming #Incremental Output

2026년 4월 10일

[SGLang] TokenizerManager: 비동기 토큰화 파이프라인의 설계와 구현

SGLang TokenizerManager의 비동기 토큰화 파이프라인을 분석한다. 요청 수신, 토큰화, ZMQ를 통한 Scheduler 전달, 응답 수집까지의 전체 흐름을 코드와 함께 살펴본다.

#sglang #Tokenizer #Async Pipeline #ZMQ IPC

2026년 4월 10일

[SGLang] Chat Template 관리: Jinja 템플릿과 모델별 대화 포맷

SGLang의 Chat Template 시스템을 분석한다. ChatTemplate 클래스, Jinja2 기반 렌더링, Llama·Qwen·DeepSeek 등 모델별 대화 포맷 매핑을 코드와 함께 살펴본다.

#sglang #Chat Template #Jinja2 #Conversation Format

2026년 4월 10일

[SGLang] 멀티 백엔드: OpenAI, Anthropic, VertexAI, LiteLLM 통합

SGLang의 멀티 백엔드 추상화를 분석한다. BaseBackend 인터페이스, OpenAI·Anthropic·VertexAI·LiteLLM 백엔드 구현, RuntimeEndpoint를 통한 로컬 서버 연결을 코드와 함께 살펴본다.

#sglang #Backend #Multi-Provider #API Abstraction

2026년 4월 10일

[SGLang] Interpreter: SGL 프로그램 실행 엔진의 설계와 구현

SGLang Interpreter의 실행 엔진을 분석한다. StreamExecutor를 통한 스트리밍 실행, ProgramState 관리, 백엔드 연결 및 호출, 배치 실행 최적화를 코드와 함께 살펴본다.

#sglang #Interpreter #StreamExecutor #Program Execution

2026년 4월 10일

[SGLang] 중간 표현(IR): SglGen, SglSelect, SglExpr의 설계

SGLang의 중간 표현(Intermediate Representation) 시스템을 분석한다. SGL 코드가 IR로 변환되는 과정, SglGen·SglSelect·SglExpr 노드의 구조, 컴파일러 이론과의 연관성을 코드와 함께 살펴본다.

#sglang #IR #Intermediate Representation #Compiler Design

2026년 4월 10일

[SGLang] SGL 언어: LLM 프로그래밍을 위한 DSL 설계

SGLang의 프론트엔드 DSL을 분석한다. gen(), select(), @function 데코레이터의 설계 철학, 기존 프롬프트 엔지니어링(LangChain, raw API)의 한계를 어떻게 극복하는지, 실제 사용 패턴을 코드와 함께 살펴본다.

#sglang #DSL #Frontend Language #LLM Programming

2026년 4월 9일

[SGLang] 음성 인식 & ASR 통합: Whisper, Qwen3-ASR 어댑터 구현

SGLang의 음성 인식(ASR) 통합을 분석한다. OpenAI Whisper 호환 API, Qwen3-ASR 어댑터, 스트리밍 ASR 구현, 기존 독립 ASR 서비스 대비 LLM 서버 통합의 이점을 코드와 함께 살펴본다.

#sglang #ASR #Speech Recognition #Whisper #Transcription

2026년 4월 9일

[SGLang] Function Calling & Tool Use: 20+ 모델별 포맷 파서 구현

SGLang의 Function Calling 파이프라인을 분석한다. FunctionCallParser의 출력 파싱 구조, 20+ 모델별 포맷 감지기(Qwen, DeepSeek, Gemma 등), Tool Server를 통한 함수 실행 흐름을 코드와 함께 살펴본다.

#sglang #Function Calling #Tool Use #Format Detection

2026년 4월 9일