[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.#sglang#Hardware Backend#MLX#NPU#XPU#Abstraction2026년 4월 15일댓글 수 로딩 중
[SGLang] Reasoning & Code Completion Parser: 추론 및 코드 파서SGLang의 Reasoning Parser와 Code Completion Parser를 분석한다. Chain-of-Thought 추론 출력 파싱, 코드 완성 포맷 처리, 대화 관리를 코드와 함께 살펴본다.#sglang#Reasoning Parser#Code Completion#Conversation2026년 4월 14일댓글 수 로딩 중
[SGLang] Debug Utils: 텐서 비교, 스케줄 시뮬레이터SGLang의 디버그 유틸리티를 분석한다. 텐서 값 비교기(Comparator), 스케줄 시뮬레이터, 토큰별 시각화 도구 등 개발/디버깅 인프라를 코드와 함께 살펴본다.#sglang#Debug Utils#Tensor Comparator#Schedule Simulator2026년 4월 14일댓글 수 로딩 중
[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.#sglang#Observability#Metrics#Tracing#Profiling2026년 4월 14일댓글 수 로딩 중
[SGLang] sgl-kernel: 커스텀 C++/CUDA 커널 라이브러리SGLang의 sgl-kernel 라이브러리를 분석한다. 커스텀 C++/CUDA 커널의 구조, AllReduce/Attention/Quantization/Sampling 등 주요 커널 카테고리를 코드와 함께 살펴본다.#sglang#sgl-kernel#CUDA Kernel#C++ Extension2026년 4월 14일댓글 수 로딩 중
[SGLang] Server Args: 300+ 서버 인자 완전 가이드SGLang의 ServerArgs를 분석한다. 300+ 서버 설정 인자를 카테고리별로 정리하고, 핵심 설정의 기본값과 튜닝 가이드를 코드와 함께 제공한다.#sglang#Server Args#Configuration#Tuning Guide2026년 4월 14일댓글 수 로딩 중
[SGLang] Model Configuration 시스템: 모델 설정 관리SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.#sglang#Model Config#Configuration#HuggingFace2026년 4월 14일댓글 수 로딩 중
[SGLang] Batch Overlap: 연산-통신 오버랩 최적화SGLang의 Batch Overlap을 분석한다. GPU 연산과 통신을 중첩하여 유휴 시간을 줄이는 전략, Single/Dual 배치 오버랩 모드를 코드와 함께 살펴본다.#sglang#Batch Overlap#Compute-Communication#Pipeline2026년 4월 14일댓글 수 로딩 중
[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.#sglang#Sparsity#QUEST#NSA#Sparse Pattern2026년 4월 14일댓글 수 로딩 중
[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.#sglang#Deep GEMM#Matrix Multiplication#GEMM Optimization2026년 4월 14일댓글 수 로딩 중
[SGLang] RoPE 변형: 로타리 위치 인코딩의 다양한 구현SGLang의 RoPE 구현을 분석한다. 기본 RoPE, NTK-aware Scaling, YaRN, Dynamic NTK 등 다양한 변형의 구현, 위치 인코딩이 긴 컨텍스트에 미치는 영향을 코드와 함께 살펴본다.#sglang#RoPE#Rotary Position Encoding#Position Embedding2026년 4월 14일댓글 수 로딩 중
[SGLang] Activation Functions: SiLU, GELU 커스텀 구현SGLang의 활성화 함수 구현을 분석한다. SiLU, GELU, SiLU-and-Mul 등 Fused 활성화 함수의 커스텀 구현, PyTorch 기본 대비 성능 향상을 코드와 함께 살펴본다.#sglang#Activation#SiLU#GELU#Fused Operations2026년 4월 14일댓글 수 로딩 중
[SGLang] Linear Layer: 양자화 통합 선형 레이어의 설계SGLang의 Linear Layer를 분석한다. 양자화 메서드를 투명하게 통합하는 선형 레이어 설계, ColumnParallel/RowParallel 분할, 가중치 로딩을 코드와 함께 살펴본다.#sglang#Linear Layer#Quantization Integration#Tensor Parallel2026년 4월 14일댓글 수 로딩 중
[SGLang] Efficient Vision Sampling: 이미지 토큰 압축SGLang의 Efficient Vision Sampling을 분석한다. 이미지 토큰 수를 줄여 추론 속도를 높이는 압축 전략, 정확도-효율 트레이드오프를 코드와 함께 살펴본다.#sglang#EVS#Vision Sampling#Token Compression#Efficiency2026년 4월 14일댓글 수 로딩 중
[SGLang] ViT CUDA Graph: Vision Encoder 가속SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.#sglang#ViT#CUDA Graph#Vision Encoder#Acceleration2026년 4월 14일댓글 수 로딩 중
[SGLang] Audio 모델: Whisper, Qwen3-ASR, GLM-ASR 프로세서SGLang의 Audio 모델 프로세서를 분석한다. Whisper, Qwen3-ASR, GLM-ASR 등 음성 모델의 오디오 전처리, 스펙트로그램 변환, 텍스트 출력을 코드와 함께 살펴본다.#sglang#Audio Models#Whisper#Qwen3-ASR#Speech Processing2026년 4월 14일댓글 수 로딩 중
[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.#sglang#Vision Language#CLIP#InternVL#LLaVA2026년 4월 14일댓글 수 로딩 중
[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.#sglang#Multimodal#Vision#Audio#Video#Pipeline2026년 4월 14일댓글 수 로딩 중
[SGLang] Custom Logit Processor: 사용자 정의 로짓 처리SGLang의 Custom Logit Processor를 분석한다. 사용자가 정의한 로짓 변환 함수를 서빙 시 적용하는 구조, 보안 제약, 배치 처리를 코드와 함께 살펴본다.#sglang#Custom Logit Processor#User-defined#Logit Transformation2026년 4월 14일댓글 수 로딩 중
[SGLang] PenaltyLib: 반복/빈도/존재 페널티 구현SGLang의 PenaltyLib를 분석한다. repetition_penalty, frequency_penalty, presence_penalty의 구현, 배치 단위 페널티 적용 최적화를 코드와 함께 살펴본다.#sglang#PenaltyLib#Repetition Penalty#Frequency Penalty2026년 4월 14일댓글 수 로딩 중