[SGLang] Sampling Parameters: 전체 샘플링 파라미터 정리SGLang의 전체 샘플링 파라미터를 분석한다. temperature, top_k, top_p, min_p, repetition_penalty 등 모든 파라미터의 역할과 상호작용을 코드와 함께 정리한다.#sglang#Sampling Parameters#Temperature#Top-K#Top-P2026년 4월 14일댓글 수 로딩 중
[SGLang] Sampler: logits에서 토큰까지의 샘플링 파이프라인SGLang의 Sampler를 분석한다. logits에서 최종 토큰을 선택하는 파이프라인, temperature/top-k/top-p 적용, 배치 샘플링 최적화를 코드와 함께 살펴본다.#sglang#Sampler#Token Sampling#Top-K#Top-P2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.#sglang#LoRA Eviction#Adapter Cache#LRU#Memory Management2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA + MoE 융합: 어댑터와 전문가 혼합의 통합SGLang의 LoRA+MoE 융합을 분석한다. MoE 모델에 LoRA 어댑터를 적용하는 구현, 전문가별 독립 어댑터, Fused MoE LoRA 커널을 코드와 함께 살펴본다.#sglang#LoRA MoE#Expert Adapter#Fused Kernel2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.#sglang#LoRA Triton#SGMV#SGEMM#Kernel Optimization2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.#sglang#LoRA Backend#PyTorch#Triton#Chunked2026년 4월 13일댓글 수 로딩 중
[SGLang] LoRA Layers: QKV, Gate/Up 프로젝션 어댑터SGLang의 LoRA Layer 구현을 분석한다. QKV Projection, Gate/Up Projection 등에 LoRA 어댑터를 적용하는 구조를 코드와 함께 살펴본다.#sglang#LoRA Layers#QKV Projection#Adapter2026년 4월 13일댓글 수 로딩 중
[SGLang] LoRA Manager: 어댑터 라이프사이클 관리SGLang의 LoRA Manager를 분석한다. 런타임 어댑터 로딩/언로딩, 멀티 LoRA 배칭, 어댑터 레지스트리 관리를 코드와 함께 살펴본다.#sglang#LoRA Manager#Adapter Loading#Multi-LoRA2026년 4월 13일댓글 수 로딩 중
[SGLang] Staging Buffer: KV 캐시 전송 버퍼 관리SGLang의 Staging Buffer를 분석한다. KV 캐시 전송을 위한 스테이징 버퍼 설계, 비동기 전송과의 연동, 메모리 풀 관리를 코드와 함께 살펴본다.#sglang#Staging Buffer#Async Transfer#Buffer Management2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregation 커넥터: Mooncake, NIXL, MORI 전송 엔진SGLang의 Disaggregation 커넥터를 분석한다. Mooncake, NIXL, MORI 등 KV 캐시 전송 엔진의 구현, 각 커넥터의 특성 비교를 코드와 함께 살펴본다.#sglang#Mooncake#NIXL#MORI#Transfer Engine2026년 4월 13일댓글 수 로딩 중
[SGLang] KV Cache Offloading: Decode 중 메모리 오프로딩SGLang의 KV Cache Offloading을 분석한다. Decode 단계에서 GPU 메모리 부족 시 KV 캐시를 CPU로 오프로딩하는 전략을 코드와 함께 살펴본다.#sglang#KV Offloading#CPU Offload#Memory Management2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregated Decode 서버: 디코드 전용 서버 구현SGLang의 Disaggregated Decode 서버를 분석한다. 디코드 전용 서버의 KV 캐시 수신, 토큰 생성 루프, Prefill 서버로부터의 상태 전달을 코드와 함께 살펴본다.#sglang#Disaggregated Decode#Token Generation#Decode Server2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregated Prefill 서버: 프리필 전용 서버 구현SGLang의 Disaggregated Prefill 서버를 분석한다. 프리필 전용으로 최적화된 서버 구현, KV 캐시 생성 및 전송, Decode 서버와의 협조를 코드와 함께 살펴본다.#sglang#Disaggregated Prefill#KV Transfer#Prefill Server2026년 4월 13일댓글 수 로딩 중
[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.#sglang#Disaggregation#PD Separation#Prefill-Decode2026년 4월 13일댓글 수 로딩 중
[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.#sglang#HPU#NPU#XPU#Hardware Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.#sglang#Shared Memory#Broadcast#IPC#Low Latency2026년 4월 13일댓글 수 로딩 중
[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.#sglang#Ray#Distributed Engine#Actor Pattern2026년 4월 13일댓글 수 로딩 중
[SGLang] Data Parallel Controller: 다중 인스턴스 조율SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.#sglang#Data Parallelism#Load Balancing#Multi-Instance2026년 4월 13일댓글 수 로딩 중
[SGLang] NCCL & MSCCL++: 집합 통신 라이브러리 통합SGLang의 NCCL과 MSCCL++ 통합을 분석한다. NVIDIA NCCL의 래퍼 구현, Microsoft MSCCL++의 추가 최적화, 라이브러리 선택 전략을 코드와 함께 살펴본다.#sglang#NCCL#MSCCL++#Collective Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중