[vllm] vLLM, DFlash 도입으로 추론 속도 1.2배 향상: MRV2와 CUDAGraph의 시너지vLLM이 DFlash를 도입하여 MRV2 및 CUDAGraph와 결합, 추론 속도를 1.2배 향상시킨 기술적 분석입니다.#vLLM#DFlash#Speculative Decoding#Performance Optimization#CUDAGraph#LLM Inference2026년 6월 10일댓글 수 로딩 중
[sglang] DeepSeek V4의 Prefill 성능을 1.35배 향상시킨 FlashAttention 최적화DeepSeek V4 모델의 Prefill 단계 성능을 획기적으로 개선한 FlashAttention 최적화 분석#AI#LLM#Performance Optimization#FlashAttention#DeepSeek V4#SGLang2026년 6월 3일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.#ONNX Runtime#CUDA#Performance Optimization#Async Inference#CUDA Graph2026년 6월 2일댓글 수 로딩 중
[sglang] [SGLang] Blackwell(B200)에서 Diffusion Attention 성능을 7배 끌어올리는 Triton 커널 최적화 분석PyTorch SDPA의 마스크 처리 한계를 Triton 커널 퓨전과 Varlen FlashAttention으로 극복하여 B200에서 최대 21%의 성능 향상을 달성했습니다.#Triton#FlashAttention#Diffusion#CUDA#Performance Optimization#SGLang2026년 5월 28일댓글 수 로딩 중
[vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출vLLM에서 ROCm 환경의 AITER MoE 연산 성능을 개선하기 위해 새로운 환경 변수를 도입하여 최적화 옵션을 제공합니다.#vLLM#ROCm#AITER#MoE#Performance Optimization#Environment Variable2026년 5월 27일댓글 수 로딩 중
[sglang] Pydantic 유효성 검사 최적화: C 루프를 이용한 API 성능 향상FastAPI 요청 처리 시 Pydantic의 느린 요소별 유효성 검사를 C 루프로 대체하여 API 성능을 25배 향상시킨 PR 분석#Python#FastAPI#Pydantic#Performance Optimization#C Extension2026년 5월 27일댓글 수 로딩 중
[sglang] 성능 최적화의 함정: DeepSeek-V3.2 정확도 붕괴를 막기 위한 SGLang의 긴급 롤백 분석EAGLE 드래프트 모델에서 Softmax를 생략하는 최적화가 DeepSeek-V3.2 MTP 모델의 정확도를 96%나 떨어뜨린 이유와 그 해결책을 분석합니다.#SGLang#Speculative Decoding#DeepSeek-V3#Performance Optimization#LLM Inference2026년 5월 26일댓글 수 로딩 중
[sglang] SGLang EAGLE 디코딩 최적화: 불필요한 Softmax 연산 제거로 성능 향상SGLang EAGLE 디코딩에서 topk=1일 때 불필요한 Softmax 연산을 제거하여 성능을 개선했습니다.#SGLang#EAGLE#Speculative Decoding#Performance Optimization#Softmax#Top-k Sampling2026년 5월 25일댓글 수 로딩 중
[triton] Triton Reduce 커널 성능 최적화: Subtiling과 RowIdxs 도입Triton Reduce 커널의 성능을 향상시키기 위해 subtiling과 rowidxs 기법을 도입한 코드 변경 분석.#Triton#Performance Optimization#CUDA#Deep Learning#Kernel Tuning2026년 5월 24일댓글 수 로딩 중
[ray] [Ray Data] Wide Schema에서 10배 성능 향상을 이끌어낸 한 줄의 설정: Parquet pre_buffer의 마법Ray Data V2에서 wide schema Parquet 파일을 읽을 때 발생하는 I/O 병목 현상을 pre_buffer 설정을 통해 해결하고 성능을 10배 개선한 사례를 분석합니다.#Ray#PyArrow#Parquet#Performance Optimization#Data Engineering2026년 5월 19일댓글 수 로딩 중
[sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상LTX2 스플릿 로터리 커널에서 헤드 배치 처리를 도입하여 성능을 2배 향상시킨 코드 최적화 분석.#Triton#Performance Optimization#LLM Kernel#RoPE#SGLang2026년 5월 16일댓글 수 로딩 중
[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석#vLLM#ROCm#AITER#MHC#Performance Optimization#Bugfix#DeepSeek V42026년 5월 13일댓글 수 로딩 중
[sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입NPU 환경에서 Shared Expert와 Routed Expert 연산을 독립적인 스트림으로 분리하여 MoE 모델의 처리량을 11% 이상 향상시켰습니다.#SGLang#NPU#MoE#Performance Optimization#Deep Learning2026년 5월 11일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: PDL 도입과 안전한 CUDA 동기화로 DSV3.2/GLM-5 가속하기PDL(Programmatic Dependency Launch) 도입과 CUDA 커널의 메모리 배리어 수정을 통해 추론 지연 시간을 개선하고 안정성을 확보했습니다.#CUDA#SGLang#Performance Optimization#LLM Inference#Triton2026년 5월 9일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.#DeepSeek-V4#AMD#ROCm#SGLang#Aiter#Performance Optimization2026년 5월 4일댓글 수 로딩 중
[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.#vLLM#Humming#MoE#Quantization#Performance Optimization#DeepSeek-V4#MXFP42026년 5월 3일댓글 수 로딩 중
[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.#vLLM#ROCm#DeepSeek#MLA#Performance Optimization#Triton2026년 5월 1일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.#SGLang#Triton#ROCm#Performance Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.#FlashInfer#Distributed Computing#CUDA#GEMM#Performance Optimization2026년 4월 24일댓글 수 로딩 중
[cpython] Python JIT Shim 빌드 프로세스 개선: 런타임 컴파일에서 빌드 타임 링크로Python JIT shim을 런타임 컴파일에서 빌드 타임 링크로 전환하여 성능과 디버깅 편의성을 개선합니다.#Python#JIT#Performance Optimization#Build System#CPython#Compiler2026년 4월 23일댓글 수 로딩 중
[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.#vLLM#MXFP4#MoE#Quantization#CUTLASS#Performance Optimization#SM1002026년 4월 18일댓글 수 로딩 중
[open-webui] Open WebUI 성능 개선: DB 세션 재사용으로 프로필 이미지 로딩 최적화Open WebUI에서 프로필 이미지 로딩 시 DB 세션 중복 생성을 방지하여 성능을 개선했습니다.#Python#FastAPI#SQLAlchemy#Performance Optimization#Database2026년 4월 17일댓글 수 로딩 중
[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.#vLLM#ROCm#Aiter#Performance Optimization#GPU Computing#LLM2026년 4월 10일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.#SGLang#AMD#ROCm#Performance Optimization#LayerNorm2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.#SGLang#Speculative Decoding#C++#Performance Optimization#Trie2026년 4월 6일댓글 수 로딩 중
[cpython] CPython의 PySet_Contains 최적화: Lock-Free 탐색 도입으로 성능 향상CPython의 PySet_Contains 함수에 Lock-Free 탐색을 도입하여 성능을 개선한 PR 분석.#CPython#Python Internals#Performance Optimization#Lock-Free#Concurrency2026년 4월 3일댓글 수 로딩 중
[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.#SGLang#Ascend NPU#Ring-SP#Performance Optimization#Diffusion Models2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale본 논문은 기존 FSDP(Fully Sharded Data Parallel) 시스템이 블록-wise 양자화 훈련 이나 Shampoo, Muon 과 같은 비-요소별(non-element-wise) 옵티마이저 를 사용하는 구조 인식 훈련(structure-aware training) 에서 겪는 한계를 해결하고자 합니다.#Review#FSDP#Distributed Training#LLM#GPU Scaling#Memory Optimization#Performance Optimization#Structure-Aware Training#RaggedShard2026년 2월 26일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.#Apple Silicon#MLX#Diffusion Transformer#Performance Optimization#PyTorch2026년 2월 11일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon 맥북에서 MLX 네이티브 백엔드로 5Hz LM 추론 속도 혁신Apple Silicon 맥북의 Metal GPU를 활용하여 5Hz LM 추론 속도를 획기적으로 개선하는 MLX 네이티브 백엔드 도입.#MLX#Apple Silicon#Metal GPU#LLM Inference#Performance Optimization#ACE-Step2026년 2월 8일댓글 수 로딩 중
[논문리뷰] TimeBill: Time-Budgeted Inference for Large Language Models시간 제약이 있는 시스템(예: 로봇 공학, 자율 주행)에서 대규모 언어 모델(LLM)의 응답 성능을 유지하면서 주어진 시간 예산 내에 추론을 완료하는 문제를 해결하는 것이 목표입니다.#Review#LLM Inference#Time Budgeting#KV Cache Eviction#Response Length Prediction#Execution Time Estimation#Real-time AI#Performance Optimization2025년 12월 28일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중
[논문리뷰] SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling이 논문은 대규모 언어 모델(LLMs)의 수학적 추론 과정에서 발생하는 성능 병목 현상을 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Test-time Scaling#Resource Allocation#Dual-process Theory#Mathematical Reasoning#Adaptive Computation#Performance Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.#Review#World Simulation#Video Generation#Block Diffusion#Semi-Autoregressive#KV Cache Management#Inference Engine#Long Video Generation#Performance Optimization2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Workload Schedulers -- Genesis, Algorithms and Differences본 논문은 현대의 워크로드 스케줄러를 운영체제 프로세스 스케줄러 , 클러스터 시스템 잡 스케줄러 , 빅 데이터 스케줄러 의 세 가지 범주로 분류하고, 각 클래스의 진화 과정, 사용되는 알고리즘, 주요 특징 및 차이점을 분석하는 것을 목표로 합니다.#Review#Workload Scheduling#Process Scheduling#Job Scheduling#Big Data Processing#Resource Management#Distributed Systems#Scheduling Algorithms#Performance Optimization2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Trove: A Flexible Toolkit for Dense RetrievalTrove는 밀집 검색(Dense Retrieval) 연구 실험을 위한 유연하고 사용하기 쉬운 오픈 소스 툴킷을 제공하여, 유연성과 속도를 희생하지 않으면서 연구 과정을 단순화 하는 것을 목표로 합니다. 특히, 대규모 데이터셋의 효율적인 관리, 유연한 모델링, 쉬운 분산 평가 등 기존 툴킷의 한계를 극복하고자 합니다.#Review#Dense Retrieval#Retrieval Toolkit#Data Management#Distributed Training#Model Customization#Hard Negative Mining#Hugging Face Integration#Performance Optimization2025년 11월 9일댓글 수 로딩 중