[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.#vLLM#DeepSeek V4#성능 최적화#CUDA 커널#LLM 추론2026년 5월 14일댓글 수 로딩 중
[pydantic-ai] Pydantic AI, 도구 검색 기능 도입으로 에이전트의 도구 관리 혁신Pydantic AI가 네이티브 도구 검색과 사용자 정의 전략을 도입하여 대규모 도구 세트 관리를 최적화합니다.#Pydantic AI#Agent#Tool Management#Optimization#LLM2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor를 도입하여 Intel XPU의 2D 블록 읽기 성능을 향상시킵니다.#vLLM#Triton#Optimization#Deep Learning#LLM2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.#vLLM#XPU#MXFP4#Quantization#GEMM#Performance2026년 5월 13일댓글 수 로딩 중
[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.#FlashInfer#Mamba#SSU#Kernel Optimization#Triton#CUDA#Performance2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석#vLLM#ROCm#AITER#MHC#Performance Optimization#Bugfix#DeepSeek V42026년 5월 13일댓글 수 로딩 중
[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.#AI#딥러닝#최적화#FP8#GPU2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM W8W8 그룹 양자화 성능 최적화: 2D-Grid를 통한 Divmod 제거vLLM의 W8W8 그룹 양자화 커널에서 divmod 연산을 2D-grid로 대체하여 성능을 개선합니다.#vLLM#CUDA#GPU 최적화#양자화#성능#divmod#2D-grid2026년 5월 12일댓글 수 로딩 중
[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.#NPU#성능 최적화#딥러닝#LLM#SGLang2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM Mamba2 SSD 커널 웜업: 첫 요청 지연 시간 91% 감소의 비결vLLM Mamba2 모델의 첫 요청 지연 시간을 91% 줄인 Triton 커널 웜업 최적화 분석.#vLLM#Mamba2#Triton#Kernel Optimization#Latency Reduction#Deep Learning Inference2026년 5월 12일댓글 수 로딩 중
[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.#ONNXRuntime#CUDA#FlashAttention#Optimization#LLM2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.#vLLM#LLM#CUDA#Optimization#MLA#DeepSeek-R12026년 5월 11일댓글 수 로딩 중
[sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입NPU 환경에서 Shared Expert와 Routed Expert 연산을 독립적인 스트림으로 분리하여 MoE 모델의 처리량을 11% 이상 향상시켰습니다.#SGLang#NPU#MoE#Performance Optimization#Deep Learning2026년 5월 11일댓글 수 로딩 중
[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석#vLLM#DeepSeek-V4#성능 최적화#GPU 커널#CuteDSL#Triton2026년 5월 11일댓글 수 로딩 중
[sglang] SGLang의 Breakable CUDA Graph 최적화: 배치 사이즈 제한 극복하기SGLang에서 CUDA Graph의 배치 사이즈 제약을 해결하고, 유연한 추론을 가능하게 하는 아키텍처 개선 분석.#SGLang#CUDA Graph#LLM#Inference Optimization#PyTorch2026년 5월 11일댓글 수 로딩 중
[flashinfer] FlashInfer, 동적 토큰 페이지 커널 도입으로 TRTLLM-GEN GQA 성능 최적화FlashInfer가 TRTLLM-GEN GQA 커널에 동적 토큰 페이지 기능을 도입하여 LLM 추론 성능을 향상시켰습니다.#FlashInfer#LLM#최적화#GQA#TRTLLM-GEN#성능2026년 5월 11일댓글 수 로딩 중
[cpython] CPython inspect.getattr_static 성능 개선: 일반적인 메타클래스 사례 최적화CPython의 inspect.getattr_static 함수가 일반적인 메타클래스 사용 시 성능을 개선하는 방법을 분석합니다.#Python#CPython#Performance#Optimization#Inspect#Metaclass2026년 5월 10일댓글 수 로딩 중
[sglang] SGLang의 MHC 파이프라인 최적화: 커널 퓨전과 DeepGemm 도입MHC 파이프라인에서 커널 퓨전과 DeepGemm을 활용해 연산 효율을 극대화하고 HBM 접근을 최소화하여 성능을 개선했습니다.#SGLang#CUDA#Triton#DeepGemm#Optimization2026년 5월 10일댓글 수 로딩 중
[openclaw] Telegram 메시지 캐시 최적화: 전체 파일 재작성 대신 변경분만 기록하기Telegram 메시지 캐시 저장 방식을 개선하여 성능을 크게 향상시키고 디스크 I/O를 줄였습니다.#Telegram#캐싱#성능 최적화#Node.js#디스크 I/O2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.#SGLang#FP4#GEMM#CUDA#CuTe#FlashInfer2026년 5월 9일댓글 수 로딩 중