SGLang

[SGLang] Sampling Parameters: 전체 샘플링 파라미터 정리

SGLang의 전체 샘플링 파라미터를 분석한다. temperature, top_k, top_p, min_p, repetition_penalty 등 모든 파라미터의 역할과 상호작용을 코드와 함께 정리한다.

#sglang #Sampling Parameters #Temperature #Top-K #Top-P

2026년 4월 14일

[SGLang] Sampler: logits에서 토큰까지의 샘플링 파이프라인

SGLang의 Sampler를 분석한다. logits에서 최종 토큰을 선택하는 파이프라인, temperature/top-k/top-p 적용, 배치 샘플링 최적화를 코드와 함께 살펴본다.

#sglang #Sampler #Token Sampling #Top-K #Top-P

2026년 4월 14일

[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책

SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.

#sglang #LoRA Eviction #Adapter Cache #LRU #Memory Management

2026년 4월 14일

[SGLang] LoRA + MoE 융합: 어댑터와 전문가 혼합의 통합

SGLang의 LoRA+MoE 융합을 분석한다. MoE 모델에 LoRA 어댑터를 적용하는 구현, 전문가별 독립 어댑터, Fused MoE LoRA 커널을 코드와 함께 살펴본다.

#sglang #LoRA MoE #Expert Adapter #Fused Kernel

2026년 4월 14일

[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산

SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.

#sglang #LoRA Triton #SGMV #SGEMM #Kernel Optimization

2026년 4월 14일

[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교

SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.

#sglang #LoRA Backend #PyTorch #Triton #Chunked

2026년 4월 13일

[SGLang] LoRA Layers: QKV, Gate/Up 프로젝션 어댑터

SGLang의 LoRA Layer 구현을 분석한다. QKV Projection, Gate/Up Projection 등에 LoRA 어댑터를 적용하는 구조를 코드와 함께 살펴본다.

#sglang #LoRA Layers #QKV Projection #Adapter

2026년 4월 13일

[SGLang] LoRA Manager: 어댑터 라이프사이클 관리

SGLang의 LoRA Manager를 분석한다. 런타임 어댑터 로딩/언로딩, 멀티 LoRA 배칭, 어댑터 레지스트리 관리를 코드와 함께 살펴본다.

#sglang #LoRA Manager #Adapter Loading #Multi-LoRA

2026년 4월 13일

[SGLang] Staging Buffer: KV 캐시 전송 버퍼 관리

SGLang의 Staging Buffer를 분석한다. KV 캐시 전송을 위한 스테이징 버퍼 설계, 비동기 전송과의 연동, 메모리 풀 관리를 코드와 함께 살펴본다.

#sglang #Staging Buffer #Async Transfer #Buffer Management

2026년 4월 13일

[SGLang] Disaggregation 커넥터: Mooncake, NIXL, MORI 전송 엔진

SGLang의 Disaggregation 커넥터를 분석한다. Mooncake, NIXL, MORI 등 KV 캐시 전송 엔진의 구현, 각 커넥터의 특성 비교를 코드와 함께 살펴본다.

#sglang #Mooncake #NIXL #MORI #Transfer Engine

2026년 4월 13일

[SGLang] KV Cache Offloading: Decode 중 메모리 오프로딩

SGLang의 KV Cache Offloading을 분석한다. Decode 단계에서 GPU 메모리 부족 시 KV 캐시를 CPU로 오프로딩하는 전략을 코드와 함께 살펴본다.

#sglang #KV Offloading #CPU Offload #Memory Management

2026년 4월 13일

[SGLang] Disaggregated Decode 서버: 디코드 전용 서버 구현

SGLang의 Disaggregated Decode 서버를 분석한다. 디코드 전용 서버의 KV 캐시 수신, 토큰 생성 루프, Prefill 서버로부터의 상태 전달을 코드와 함께 살펴본다.

#sglang #Disaggregated Decode #Token Generation #Decode Server

2026년 4월 13일

[SGLang] Disaggregated Prefill 서버: 프리필 전용 서버 구현

SGLang의 Disaggregated Prefill 서버를 분석한다. 프리필 전용으로 최적화된 서버 구현, KV 캐시 생성 및 전송, Decode 서버와의 협조를 코드와 함께 살펴본다.

#sglang #Disaggregated Prefill #KV Transfer #Prefill Server

2026년 4월 13일

[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처

SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.

#sglang #Disaggregation #PD Separation #Prefill-Decode

2026년 4월 13일

[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터

SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.

#sglang #HPU #NPU #XPU #Hardware Communication

2026년 4월 13일

[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신

SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.

#sglang #Shared Memory #Broadcast #IPC #Low Latency

2026년 4월 13일

[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터

SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.

#sglang #Ray #Distributed Engine #Actor Pattern

2026년 4월 13일

[SGLang] Data Parallel Controller: 다중 인스턴스 조율

SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.

#sglang #Data Parallelism #Load Balancing #Multi-Instance

2026년 4월 13일

[SGLang] NCCL & MSCCL++: 집합 통신 라이브러리 통합

SGLang의 NCCL과 MSCCL++ 통합을 분석한다. NVIDIA NCCL의 래퍼 구현, Microsoft MSCCL++의 추가 최적화, 라이브러리 선택 전략을 코드와 함께 살펴본다.

#sglang #NCCL #MSCCL++#Collective Communication

2026년 4월 13일

[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신

SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.

#sglang #Custom AllReduce #Low Latency #Shared Memory

2026년 4월 13일