#NPU

12개의 포스트

[sglang] [NPU] GLM-4.7-Flash 성능 최적화: Fused Triton 커널로 연산 병목 해결하기

Split과 RMSNorm 연산을 하나로 합친 Fused Kernel을 도입하여 GLM-4.7-Flash 모델의 NPU 추론 성능을 대폭 개선했습니다.

#NPU #Triton #Optimization #DeepSeek-V2 #SGLang #LLM Inference

2026년 6월 30일

[sglang] LTX-2 모델 성능 최적화: NPU 및 GPU에서의 지연 시간 단축 분석

LTX-2 모델의 E2E 지연 시간을 NPU에서 27%, GPU에서 3% 단축한 코드 변경 분석.

#sglang #LTX-2 #성능 최적화 #NPU #GPU #RMSNorm #FlashAttention

2026년 6월 19일

[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화

NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석

#NPU #Triton #Kernel Fusion #Optimization #Qwen3.5 #Qwen3_Next #LLM

2026년 5월 20일

[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화

SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.

#SGLang #LLM #NPU #Optimization #Memory Management

2026년 5월 15일

[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입

NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.

#NPU #성능 최적화 #딥러닝 #LLM #SGLang

2026년 5월 12일

[sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입

NPU 환경에서 Shared Expert와 Routed Expert 연산을 독립적인 스트림으로 분리하여 MoE 모델의 처리량을 11% 이상 향상시켰습니다.

#SGLang #NPU #MoE #Performance Optimization #Deep Learning

2026년 5월 11일

[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입

NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.

#SGLang #NPU #LLM #Optimization #Quantization

2026년 5월 2일

[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화

SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.

#sglang #Hardware Backend #MLX #NPU #XPU #Abstraction

2026년 4월 15일

[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터

SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.

#sglang #HPU #NPU #XPU #Hardware Communication

2026년 4월 13일

[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가

Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가

#SGLang #NPU #Ascend #Ring-SP #Benchmark

2026년 4월 1일

[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결

Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.

#SGLang #NPU #Ascend #Memory Management #Bug Fix

2026년 3월 31일

[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선

SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.

#SGLang #NPU #CI #GitHub Actions #Caching #Ascend

2026년 3월 26일