[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.#sglang#Multimodal Cache#Vision Encoder#Image Caching2026년 4월 11일댓글 수 로딩 중
[SGLang] 외부 스토리지 백엔드: LMCache, 3FS, Mooncake, NIXLSGLang의 외부 스토리지 백엔드를 분석한다. KV 캐시를 외부 스토리지로 확장하는 아키텍처, LMCache·3FS·Mooncake·NIXL 등 5개 백엔드의 구현을 코드와 함께 비교한다.#sglang#External Storage#LMCache#Mooncake#Distributed Cache2026년 4월 11일댓글 수 로딩 중
[SGLang] Session-Aware Cache: 사용자별 KV 캐시 파티셔닝SGLang의 Session-Aware Cache를 분석한다. 세션 단위로 KV 캐시를 파티셔닝하여 멀티턴 대화에서 캐시 재활용률을 높이는 전략을 코드와 함께 살펴본다.#sglang#Session Cache#Multi-turn#Cache Partitioning2026년 4월 11일댓글 수 로딩 중
[SGLang] Hybrid Cache Controller: GPU/CPU 하이브리드 캐시 관리SGLang의 Hybrid Cache Controller를 분석한다. GPU와 CPU 메모리를 결합한 하이브리드 캐시 구조, 핫/콜드 데이터 자동 분류, 계층 간 데이터 이동을 코드와 함께 살펴본다.#sglang#Hybrid Cache#GPU CPU#Memory Management2026년 4월 10일댓글 수 로딩 중
[SGLang] 캐시 Eviction 정책: LRU, LFU, FIFO 비교 분석SGLang의 캐시 Eviction 정책을 분석한다. LRU, LFU, FIFO 등 퇴거 전략의 구현, 각 정책의 장단점과 적용 시나리오를 코드와 함께 비교한다.#sglang#Cache Eviction#LRU#LFU#FIFO2026년 4월 10일댓글 수 로딩 중
[SGLang] Mamba Radix Cache: SSM 모델을 위한 상태 캐싱SGLang의 Mamba Radix Cache를 분석한다. Transformer와 다른 SSM(State Space Model)의 상태 관리, Mamba 모델의 재귀 상태 캐싱 전략을 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Caching#Radix Cache2026년 4월 10일댓글 수 로딩 중
[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.#sglang#Sliding Window Attention#SWA Cache#Memory Optimization2026년 4월 10일댓글 수 로딩 중
[SGLang] HiRadixCache: 계층적 GPU/CPU/Disk KV 캐시SGLang의 HiRadixCache를 분석한다. GPU → CPU → Disk 3계층 캐시 구조, 핫/콜드 데이터 자동 이동, 대규모 컨텍스트 지원을 코드와 함께 살펴본다.#sglang#HiRadixCache#Hierarchical Cache#CPU Offloading2026년 4월 10일댓글 수 로딩 중
[SGLang] Allocator: 토큰-KV 풀 할당 전략의 설계SGLang의 메모리 Allocator를 분석한다. 토큰을 KV 캐시 풀에 매핑하는 할당 전략, 연속/분산 할당 모드, 메모리 단편화 방지를 코드와 함께 살펴본다.#sglang#Allocator#Memory Allocation#KV Pool2026년 4월 10일댓글 수 로딩 중
[SGLang] GPU Memory Pool: 블록 기반 KV 캐시 메모리 할당SGLang의 GPU Memory Pool을 분석한다. 사전 할당된 GPU 메모리 블록 관리, KV 캐시용 메모리 풀 설계, 동적 할당/해제 전략을 코드와 함께 살펴본다.#sglang#Memory Pool#GPU Memory#Block Allocation2026년 4월 10일댓글 수 로딩 중
[SGLang] C++ Radix Tree: 고성능 캐시를 위한 네이티브 구현SGLang의 C++ Radix Tree 구현을 분석한다. Python 바인딩, V2 트리 구조의 노드 설계, 메모리 효율적 탐색과 삽입 알고리즘을 코드와 함께 살펴본다.#sglang#C++ Radix Tree#Native Implementation#Performance2026년 4월 10일댓글 수 로딩 중
[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#RadixAttention#Prefix Caching#Radix Tree#KV Cache2026년 4월 10일댓글 수 로딩 중
[cpython] CPython JIT 최적화: 복합 마이크로 오퍼레이션(uOp)의 분해를 통한 효율성 개선CPython JIT의 복합 uOp를 단순한 단위 작업으로 분해하여 코드 생성의 유연성과 유지보수성을 높인 최적화 사례를 분석합니다.#CPython#JIT#Python Internals#Optimization2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.#vLLM#ROCm#Aiter#Performance Optimization#GPU Computing#LLM2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.#vLLM#CUDA#Performance#Triton#DeepLearning2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.#vLLM#Nemotron Nano VL#Pixel Shuffle#최적화#성능 개선#PyTorch2026년 4월 10일댓글 수 로딩 중
[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.#vLLM#ROCm#Triton#Quantization#MI300X#Performance2026년 4월 10일댓글 수 로딩 중
[SGLang] Prefill Delayer: 전략적 프리필 지연으로 디코드 처리량 극대화SGLang의 Prefill Delayer를 분석한다. 프리필 요청을 의도적으로 지연시켜 디코드 배치의 처리량을 극대화하는 전략, 지연 조건과 임계값 설정을 코드와 함께 살펴본다.#sglang#Prefill Delay#Decode Throughput#Scheduling Strategy2026년 4월 10일댓글 수 로딩 중
[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.#sglang#Data Parallelism#DP Attention#Load Balancing2026년 4월 10일댓글 수 로딩 중
[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.#sglang#Pipeline Parallelism#Scheduler Mixin#Micro-batch2026년 4월 10일댓글 수 로딩 중