#성능 개선

8개의 포스트

[sglang] SM120 Blackwell에서 DeepSeek-V4 모델 서빙 최적화: FlashInfer MXFP4 MoE 도입 및 메모리 절감

SM120 GPU에서 DeepSeek-V4 모델 서빙 시 발생하던 문제를 해결하고 성능을 개선한 PR 분석.

#sglang #DeepSeek-V4 #SM120 #Blackwell #FlashInfer #MXFP4 #MoE #최적화 #성능 개선 #메모리 절감

2026년 7월 18일

[sglang] SGLang, MoonViT의 최대 시퀀스 길이 메타데이터 재사용으로 성능 개선

SGLang의 MoonViT 구현에서 최대 시퀀스 길이 계산 시 GPU-호스트 동기화를 제거하여 성능을 향상시켰습니다.

#SGLang #최적화 #성능 개선 #MoonViT #FlashAttention

2026년 7월 12일

[onnxruntime] WebGPU FlashAttention 최적화: 커널 퓨전과 가변 시퀀스 길이 지원으로 성능 극대화

WebGPU FlashAttention의 커널 퓨전과 가변 시퀀스 길이 지원을 통한 성능 개선 분석

#WebGPU #FlashAttention #ONNX Runtime #최적화 #성능 개선 #AI 가속

2026년 6월 11일

[sglang] 실시간 RGB 전송 속도 향상을 위한 최적화 분석

sglang의 실시간 RGB 전송에서 불필요한 압축을 제거하여 성능을 22.4% 향상시킨 PR 분석

#sglang #최적화 #성능 개선 #실시간 전송 #RGB #Gzip

2026년 6월 4일

[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화

Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석

#Axolotl #MoE #Tiled-MLP #FSDP2 #최적화 #성능 개선 #딥러닝

2026년 5월 28일

[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화

FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.

#FlashInfer #CuTe DSL #FMHA #Prefill #최적화 #성능 개선 #딥러닝 #LLM

2026년 4월 24일

[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속

vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.

#vLLM #Arm CPU #BF16 #GELU #최적화 #성능 개선 #LUT

2026년 4월 16일

[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석

vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.

#vLLM #Nemotron Nano VL #Pixel Shuffle #최적화 #성능 개선 #PyTorch

2026년 4월 10일