[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.#vLLM#MoE#CUDA#PerformanceOptimization#DeepLearning2026년 5월 28일댓글 수 로딩 중
[onnxruntime] Apple M4 Max를 위한 FlashAttention 최적화: 20배 성능 향상 분석WebGPU 기반 FlashAttention을 Apple 실리콘 환경에 맞춰 튜닝하여 최대 20배의 성능 향상을 달성한 기술적 접근을 분석합니다.#ONNXRuntime#WebGPU#FlashAttention#AppleSilicon#PerformanceOptimization2026년 5월 14일댓글 수 로딩 중
[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.#SGLang#Triton#DeepSeek#MoE#PerformanceOptimization2026년 5월 9일댓글 수 로딩 중
[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.#vLLM#LLM#DistributedInference#KVCache#PerformanceOptimization2026년 4월 30일댓글 수 로딩 중
[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.#SGLang#LLM#AMD#ROCm#PerformanceOptimization2026년 4월 12일댓글 수 로딩 중