[SGLang] Linear Layer: 양자화 통합 선형 레이어의 설계SGLang의 Linear Layer를 분석한다. 양자화 메서드를 투명하게 통합하는 선형 레이어 설계, ColumnParallel/RowParallel 분할, 가중치 로딩을 코드와 함께 살펴본다.#sglang#Linear Layer#Quantization Integration#Tensor Parallel2026년 4월 14일댓글 수 로딩 중
[SGLang] Efficient Vision Sampling: 이미지 토큰 압축SGLang의 Efficient Vision Sampling을 분석한다. 이미지 토큰 수를 줄여 추론 속도를 높이는 압축 전략, 정확도-효율 트레이드오프를 코드와 함께 살펴본다.#sglang#EVS#Vision Sampling#Token Compression#Efficiency2026년 4월 14일댓글 수 로딩 중
[SGLang] ViT CUDA Graph: Vision Encoder 가속SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.#sglang#ViT#CUDA Graph#Vision Encoder#Acceleration2026년 4월 14일댓글 수 로딩 중
[SGLang] Audio 모델: Whisper, Qwen3-ASR, GLM-ASR 프로세서SGLang의 Audio 모델 프로세서를 분석한다. Whisper, Qwen3-ASR, GLM-ASR 등 음성 모델의 오디오 전처리, 스펙트로그램 변환, 텍스트 출력을 코드와 함께 살펴본다.#sglang#Audio Models#Whisper#Qwen3-ASR#Speech Processing2026년 4월 14일댓글 수 로딩 중
[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.#sglang#Vision Language#CLIP#InternVL#LLaVA2026년 4월 14일댓글 수 로딩 중
[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.#sglang#Multimodal#Vision#Audio#Video#Pipeline2026년 4월 14일댓글 수 로딩 중
[SGLang] Custom Logit Processor: 사용자 정의 로짓 처리SGLang의 Custom Logit Processor를 분석한다. 사용자가 정의한 로짓 변환 함수를 서빙 시 적용하는 구조, 보안 제약, 배치 처리를 코드와 함께 살펴본다.#sglang#Custom Logit Processor#User-defined#Logit Transformation2026년 4월 14일댓글 수 로딩 중
[SGLang] PenaltyLib: 반복/빈도/존재 페널티 구현SGLang의 PenaltyLib를 분석한다. repetition_penalty, frequency_penalty, presence_penalty의 구현, 배치 단위 페널티 적용 최적화를 코드와 함께 살펴본다.#sglang#PenaltyLib#Repetition Penalty#Frequency Penalty2026년 4월 14일댓글 수 로딩 중
[SGLang] Sampling Parameters: 전체 샘플링 파라미터 정리SGLang의 전체 샘플링 파라미터를 분석한다. temperature, top_k, top_p, min_p, repetition_penalty 등 모든 파라미터의 역할과 상호작용을 코드와 함께 정리한다.#sglang#Sampling Parameters#Temperature#Top-K#Top-P2026년 4월 14일댓글 수 로딩 중
[SGLang] Sampler: logits에서 토큰까지의 샘플링 파이프라인SGLang의 Sampler를 분석한다. logits에서 최종 토큰을 선택하는 파이프라인, temperature/top-k/top-p 적용, 배치 샘플링 최적화를 코드와 함께 살펴본다.#sglang#Sampler#Token Sampling#Top-K#Top-P2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.#sglang#LoRA Eviction#Adapter Cache#LRU#Memory Management2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA + MoE 융합: 어댑터와 전문가 혼합의 통합SGLang의 LoRA+MoE 융합을 분석한다. MoE 모델에 LoRA 어댑터를 적용하는 구현, 전문가별 독립 어댑터, Fused MoE LoRA 커널을 코드와 함께 살펴본다.#sglang#LoRA MoE#Expert Adapter#Fused Kernel2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.#sglang#LoRA Triton#SGMV#SGEMM#Kernel Optimization2026년 4월 14일댓글 수 로딩 중
[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.#sglang#LoRA Backend#PyTorch#Triton#Chunked2026년 4월 13일댓글 수 로딩 중
[SGLang] LoRA Layers: QKV, Gate/Up 프로젝션 어댑터SGLang의 LoRA Layer 구현을 분석한다. QKV Projection, Gate/Up Projection 등에 LoRA 어댑터를 적용하는 구조를 코드와 함께 살펴본다.#sglang#LoRA Layers#QKV Projection#Adapter2026년 4월 13일댓글 수 로딩 중
[SGLang] LoRA Manager: 어댑터 라이프사이클 관리SGLang의 LoRA Manager를 분석한다. 런타임 어댑터 로딩/언로딩, 멀티 LoRA 배칭, 어댑터 레지스트리 관리를 코드와 함께 살펴본다.#sglang#LoRA Manager#Adapter Loading#Multi-LoRA2026년 4월 13일댓글 수 로딩 중
[SGLang] Staging Buffer: KV 캐시 전송 버퍼 관리SGLang의 Staging Buffer를 분석한다. KV 캐시 전송을 위한 스테이징 버퍼 설계, 비동기 전송과의 연동, 메모리 풀 관리를 코드와 함께 살펴본다.#sglang#Staging Buffer#Async Transfer#Buffer Management2026년 4월 13일댓글 수 로딩 중
[SGLang] Disaggregation 커넥터: Mooncake, NIXL, MORI 전송 엔진SGLang의 Disaggregation 커넥터를 분석한다. Mooncake, NIXL, MORI 등 KV 캐시 전송 엔진의 구현, 각 커넥터의 특성 비교를 코드와 함께 살펴본다.#sglang#Mooncake#NIXL#MORI#Transfer Engine2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Sentinel & Typing: 센티넬 객체와 타입 별칭sentinel.py의 Sentinel 클래스가 '기본값과 명시적 None 구분'을 해결하는 방법과 typing.py의 프로젝트 공통 타입 별칭 분석#llm-compressor#Sentinel#Typing2026년 4월 13일댓글 수 로딩 중
[llm-compressor] PyTorch Utils: 희소화 통계와 모듈 헬퍼pytorch/utils와 utils/pytorch 디렉토리의 sparsification_info, module.py 헬퍼가 제공하는 공통 PyTorch 유틸리티 분석#llm-compressor#PyTorch#Utils2026년 4월 13일댓글 수 로딩 중