최신 포스트

[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결

vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.

#vLLM #CUDA Graph #Qwen3-VL #최적화 #성능 향상 #LLM

2026년 4월 14일

[vllm] vLLM 성능 최적화: Thread Pool을 활용한 Blocking I/O 오프로딩 전략

vLLM의 Pooling 엔트리포인트에서 발생하는 전/후처리 병목 현상을 Thread Pool로 해결하여 2ms의 지연 시간을 단축한 사례를 분석합니다.

#vLLM #Python #AsyncIO #Performance #Thread Pool

2026년 4월 14일

[triton] Triton 테스트 속도 혁신: Python 루프에서 벡터화된 NumPy로의 전환

Triton의 느린 테스트를 Python 루프에서 벡터화된 NumPy로 전환하여 200초에서 3.3초로 단축한 PR 분석

#Triton #최적화 #테스트 #NumPy #성능

2026년 4월 14일

[SGLang] RoPE 변형: 로타리 위치 인코딩의 다양한 구현

SGLang의 RoPE 구현을 분석한다. 기본 RoPE, NTK-aware Scaling, YaRN, Dynamic NTK 등 다양한 변형의 구현, 위치 인코딩이 긴 컨텍스트에 미치는 영향을 코드와 함께 살펴본다.

#sglang #RoPE #Rotary Position Encoding #Position Embedding

2026년 4월 14일

[SGLang] Activation Functions: SiLU, GELU 커스텀 구현

SGLang의 활성화 함수 구현을 분석한다. SiLU, GELU, SiLU-and-Mul 등 Fused 활성화 함수의 커스텀 구현, PyTorch 기본 대비 성능 향상을 코드와 함께 살펴본다.

#sglang #Activation #SiLU #GELU #Fused Operations

2026년 4월 14일

[SGLang] Linear Layer: 양자화 통합 선형 레이어의 설계

SGLang의 Linear Layer를 분석한다. 양자화 메서드를 투명하게 통합하는 선형 레이어 설계, ColumnParallel/RowParallel 분할, 가중치 로딩을 코드와 함께 살펴본다.

#sglang #Linear Layer #Quantization Integration #Tensor Parallel

2026년 4월 14일

[SGLang] Efficient Vision Sampling: 이미지 토큰 압축

SGLang의 Efficient Vision Sampling을 분석한다. 이미지 토큰 수를 줄여 추론 속도를 높이는 압축 전략, 정확도-효율 트레이드오프를 코드와 함께 살펴본다.

#sglang #EVS #Vision Sampling #Token Compression #Efficiency

2026년 4월 14일

[SGLang] ViT CUDA Graph: Vision Encoder 가속

SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.

#sglang #ViT #CUDA Graph #Vision Encoder #Acceleration

2026년 4월 14일

[SGLang] Audio 모델: Whisper, Qwen3-ASR, GLM-ASR 프로세서

SGLang의 Audio 모델 프로세서를 분석한다. Whisper, Qwen3-ASR, GLM-ASR 등 음성 모델의 오디오 전처리, 스펙트로그램 변환, 텍스트 출력을 코드와 함께 살펴본다.

#sglang #Audio Models #Whisper #Qwen3-ASR #Speech Processing

2026년 4월 14일

[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서

SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.

#sglang #Vision Language #CLIP #InternVL #LLaVA

2026년 4월 14일

[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합

SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.

#sglang #Multimodal #Vision #Audio #Video #Pipeline

2026년 4월 14일

[SGLang] Custom Logit Processor: 사용자 정의 로짓 처리

SGLang의 Custom Logit Processor를 분석한다. 사용자가 정의한 로짓 변환 함수를 서빙 시 적용하는 구조, 보안 제약, 배치 처리를 코드와 함께 살펴본다.

#sglang #Custom Logit Processor #User-defined #Logit Transformation

2026년 4월 14일

[SGLang] PenaltyLib: 반복/빈도/존재 페널티 구현

SGLang의 PenaltyLib를 분석한다. repetition_penalty, frequency_penalty, presence_penalty의 구현, 배치 단위 페널티 적용 최적화를 코드와 함께 살펴본다.

#sglang #PenaltyLib #Repetition Penalty #Frequency Penalty

2026년 4월 14일

[SGLang] Sampling Parameters: 전체 샘플링 파라미터 정리

SGLang의 전체 샘플링 파라미터를 분석한다. temperature, top_k, top_p, min_p, repetition_penalty 등 모든 파라미터의 역할과 상호작용을 코드와 함께 정리한다.

#sglang #Sampling Parameters #Temperature #Top-K #Top-P

2026년 4월 14일

[SGLang] Sampler: logits에서 토큰까지의 샘플링 파이프라인

SGLang의 Sampler를 분석한다. logits에서 최종 토큰을 선택하는 파이프라인, temperature/top-k/top-p 적용, 배치 샘플링 최적화를 코드와 함께 살펴본다.

#sglang #Sampler #Token Sampling #Top-K #Top-P

2026년 4월 14일

[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책

SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.

#sglang #LoRA Eviction #Adapter Cache #LRU #Memory Management

2026년 4월 14일

[SGLang] LoRA + MoE 융합: 어댑터와 전문가 혼합의 통합

SGLang의 LoRA+MoE 융합을 분석한다. MoE 모델에 LoRA 어댑터를 적용하는 구현, 전문가별 독립 어댑터, Fused MoE LoRA 커널을 코드와 함께 살펴본다.

#sglang #LoRA MoE #Expert Adapter #Fused Kernel

2026년 4월 14일

[SGLang] LoRA Triton 커널: SGMV, SGEMM 최적화 연산

SGLang의 LoRA Triton 커널을 분석한다. SGMV(Segmented Matrix-Vector), SGEMM(Segmented GEMM) 등 LoRA 전용 최적화 커널의 구현을 코드와 함께 살펴본다.

#sglang #LoRA Triton #SGMV #SGEMM #Kernel Optimization

2026년 4월 14일

[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교

SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.

#sglang #LoRA Backend #PyTorch #Triton #Chunked

2026년 4월 13일

[SGLang] LoRA Layers: QKV, Gate/Up 프로젝션 어댑터

SGLang의 LoRA Layer 구현을 분석한다. QKV Projection, Gate/Up Projection 등에 LoRA 어댑터를 적용하는 구조를 코드와 함께 살펴본다.

#sglang #LoRA Layers #QKV Projection #Adapter

2026년 4월 13일