[ollama] Ollama MLX Gemma4 성능 최적화: Fused Operations를 통한 효율성 증대Ollama의 MLX 백엔드에서 Gemma4 모델의 성능을 fused operations로 최적화한 PR 분석.#Ollama#MLX#Gemma4#성능 최적화#Fused Operations#Deep Learning#Go#Machine Learning2026년 4월 15일댓글 수 로딩 중
[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.#SGLang#Diffusion Models#RL#Optimization#Performance#API2026년 4월 15일댓글 수 로딩 중
[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.#vLLM#LLM#KV Cache#Quantization#Optimization#Triton#GPU Memory2026년 4월 15일댓글 수 로딩 중
[sglang] sglang, AMD MI35x 환경에서 GLM-5-MXFP4 모델의 성능 및 정확도 테스트 추가sglang 레포지토리에서 AMD MI35x GPU 환경에 GLM-5-MXFP4 모델의 정확도 및 성능 테스트를 추가하고 기존 테스트를 정리하는 PR을 분석합니다.#sglang#AMD#MI35x#GLM-5-MXFP4#CI#테스트 자동화#성능 최적화2026년 4월 15일댓글 수 로딩 중
[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.#Triton#MoE#Qwen3.5#Kernel-Fusion#SGLang#AMD2026년 4월 15일댓글 수 로딩 중
[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.#sglang#Hardware Backend#MLX#NPU#XPU#Abstraction2026년 4월 15일댓글 수 로딩 중
[SGLang] Reasoning & Code Completion Parser: 추론 및 코드 파서SGLang의 Reasoning Parser와 Code Completion Parser를 분석한다. Chain-of-Thought 추론 출력 파싱, 코드 완성 포맷 처리, 대화 관리를 코드와 함께 살펴본다.#sglang#Reasoning Parser#Code Completion#Conversation2026년 4월 14일댓글 수 로딩 중
[SGLang] Debug Utils: 텐서 비교, 스케줄 시뮬레이터SGLang의 디버그 유틸리티를 분석한다. 텐서 값 비교기(Comparator), 스케줄 시뮬레이터, 토큰별 시각화 도구 등 개발/디버깅 인프라를 코드와 함께 살펴본다.#sglang#Debug Utils#Tensor Comparator#Schedule Simulator2026년 4월 14일댓글 수 로딩 중
[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.#sglang#Observability#Metrics#Tracing#Profiling2026년 4월 14일댓글 수 로딩 중
[SGLang] sgl-kernel: 커스텀 C++/CUDA 커널 라이브러리SGLang의 sgl-kernel 라이브러리를 분석한다. 커스텀 C++/CUDA 커널의 구조, AllReduce/Attention/Quantization/Sampling 등 주요 커널 카테고리를 코드와 함께 살펴본다.#sglang#sgl-kernel#CUDA Kernel#C++ Extension2026년 4월 14일댓글 수 로딩 중
[SGLang] Server Args: 300+ 서버 인자 완전 가이드SGLang의 ServerArgs를 분석한다. 300+ 서버 설정 인자를 카테고리별로 정리하고, 핵심 설정의 기본값과 튜닝 가이드를 코드와 함께 제공한다.#sglang#Server Args#Configuration#Tuning Guide2026년 4월 14일댓글 수 로딩 중
[SGLang] Model Configuration 시스템: 모델 설정 관리SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.#sglang#Model Config#Configuration#HuggingFace2026년 4월 14일댓글 수 로딩 중
[SGLang] Batch Overlap: 연산-통신 오버랩 최적화SGLang의 Batch Overlap을 분석한다. GPU 연산과 통신을 중첩하여 유휴 시간을 줄이는 전략, Single/Dual 배치 오버랩 모드를 코드와 함께 살펴본다.#sglang#Batch Overlap#Compute-Communication#Pipeline2026년 4월 14일댓글 수 로딩 중
[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.#sglang#Sparsity#QUEST#NSA#Sparse Pattern2026년 4월 14일댓글 수 로딩 중
[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.#sglang#Deep GEMM#Matrix Multiplication#GEMM Optimization2026년 4월 14일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.#SGLang#PyTorch Inductor#FP8#Kernel Fusion#LLM Optimization2026년 4월 14일댓글 수 로딩 중
[cpython] Python JIT 옵티마이저의 다중 캐시 버그 수정: `optimizer_generator` 개선 분석Python JIT 옵티마이저가 다중 캐시를 올바르게 처리하도록 수정된 PR 분석.#Python#JIT#Optimizer#Performance#Bug Fix#CPython2026년 4월 14일댓글 수 로딩 중
[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.#vLLM#CUDA Graph#Qwen3-VL#최적화#성능 향상#LLM2026년 4월 14일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: Thread Pool을 활용한 Blocking I/O 오프로딩 전략vLLM의 Pooling 엔트리포인트에서 발생하는 전/후처리 병목 현상을 Thread Pool로 해결하여 2ms의 지연 시간을 단축한 사례를 분석합니다.#vLLM#Python#AsyncIO#Performance#Thread Pool2026년 4월 14일댓글 수 로딩 중
[triton] Triton 테스트 속도 혁신: Python 루프에서 벡터화된 NumPy로의 전환Triton의 느린 테스트를 Python 루프에서 벡터화된 NumPy로 전환하여 200초에서 3.3초로 단축한 PR 분석#Triton#최적화#테스트#NumPy#성능2026년 4월 14일댓글 수 로딩 중