[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.#SGLang#AMD#ROCm#FP8#KernelFusion#LLM2026년 4월 11일댓글 수 로딩 중
[cpython] CPython JIT 최적화: 복합 마이크로 오퍼레이션(uOp)의 분해를 통한 효율성 개선CPython JIT의 복합 uOp를 단순한 단위 작업으로 분해하여 코드 생성의 유연성과 유지보수성을 높인 최적화 사례를 분석합니다.#CPython#JIT#Python Internals#Optimization2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.#vLLM#ROCm#Aiter#Performance Optimization#GPU Computing#LLM2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.#vLLM#CUDA#Performance#Triton#DeepLearning2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.#vLLM#Nemotron Nano VL#Pixel Shuffle#최적화#성능 개선#PyTorch2026년 4월 10일댓글 수 로딩 중
[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.#vLLM#ROCm#Triton#Quantization#MI300X#Performance2026년 4월 10일댓글 수 로딩 중
[cpython] CPython JIT 최적화: MAKE_FUNCTION의 불필요한 참조 카운팅 제거CPython JIT 컴파일러에서 MAKE_FUNCTION 바이트코드의 불필요한 참조 카운팅을 제거하여 성능을 개선합니다.#CPython#JIT#Optimization#Python Internals#Performance2026년 4월 9일댓글 수 로딩 중
[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.#SGLang#DeepSeek#MoE#DeepEP#LLM Inference2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.#SGLang#AMD#ROCm#Performance Optimization#LayerNorm2026년 4월 9일댓글 수 로딩 중
[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.#sglang#LLM#AMD GPU#벤치마크#최적화#CI/CD2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.#SGLang#AMD#ROCm#FP8#LLM#CI/CD2026년 4월 8일댓글 수 로딩 중
[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.#MLX#Apple Silicon#VAE#Memory Optimization#Performance2026년 4월 7일댓글 수 로딩 중
[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석#sglang#performance#optimization#torch.compile#fusion#CUDA2026년 4월 7일댓글 수 로딩 중
[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.#llm-compressor#Gemma4#MoE#양자화#최적화#기술 블로그2026년 4월 7일댓글 수 로딩 중
[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.#SGLang#NIXL#KV Cache#Disaggregation#TP Heterogeneous#Optimization2026년 4월 7일댓글 수 로딩 중
[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.#sglang#performance#CI#AMD#Qwen3.5#FP8#benchmarking2026년 4월 7일댓글 수 로딩 중
[cpython] CPython 최적화: _BINARY_OP_EXTEND를 통한 타입 정보 전파로 성능 향상CPython의 Tier 2 옵티마이저에서 _BINARY_OP_EXTEND의 타입 정보 전파를 개선하여 성능을 35% 향상시켰습니다.#Python#CPython#Optimization#JIT#Compiler2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.#SGLang#Speculative Decoding#C++#Performance Optimization#Trie2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.#SGLang#Ngram#Speculative Decoding#Suffix Automaton#성능 최적화#LLM#Python#C++2026년 4월 6일댓글 수 로딩 중