#DeepLearning

14개의 포스트

[triton] Triton 커널 최적화: 불필요한 텐서 메모리 할당 제거하기

Triton의 reduce_launch_metadata에서 발생하는 대규모 중간 텐서 생성 문제를 해결하여 메모리 효율성을 개선한 사례를 분석합니다.

#Triton #GPU #Optimization #MemoryManagement #DeepLearning

2026년 7월 2일

[vllm] vLLM에서 Flashinfer 기반 Non-gated MoE bf16 지원 최적화 분석

vLLM의 Flashinfer-TRTLLM 백엔드에 Non-gated MoE bf16 지원을 추가하여 성능을 약 15% 향상시킨 기술적 변경사항을 분석합니다.

#vLLM #MoE #Flashinfer #DeepLearning #Optimization

2026년 6월 17일

[sglang] [성능 최적화] Wan2.2 모델을 위한 최적의 torch.compile 모드 찾기: 왜 'default'가 더 빠를까?

Wan2.2 T2V A14B 모델에서 torch.compile 모드를 'default'로 변경하여 성능을 5% 이상 향상시키고 메모리 사용량을 줄인 사례를 분석합니다.

#PyTorch #torch.compile #SGLang #Performance #DeepLearning #Wan2.2

2026년 6월 16일

[transformers] Hugging Face Transformers: logits_to_keep을 활용한 메모리 최적화

모델 내부에서 logits을 미리 슬라이싱하여 메모리 사용량을 줄이고 추론 처리량을 개선하는 최적화 기법을 소개합니다.

#HuggingFace #Transformers #LLM #Optimization #DeepLearning

2026년 6월 15일

[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상

LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.

#SGLang #DeepLearning #Optimization #VAE #CUDA

2026년 6월 9일

[vllm] vLLM의 FP8 Scaled MM 최적화: Padding 제거를 통한 20% 성능 향상

vLLM에서 FP8 행렬 곱셈 시 불필요한 Padding을 제거하여 커널 성능을 약 20% 개선한 사례를 분석합니다.

#vLLM #CUDA #Optimization #FP8 #DeepLearning

2026년 6월 1일

[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상

MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.

#vLLM #MoE #CUDA #PerformanceOptimization #DeepLearning

2026년 5월 28일

[LlamaFactory] LlamaFactory의 Triton 기반 Fused MoE 커널 도입: 40% 이상의 성능 향상

Triton으로 구현된 Fused MoE 커널을 통해 Mixtral 등 MoE 모델의 학습 속도를 획기적으로 개선합니다.

#LlamaFactory #Triton #MoE #DeepLearning #Optimization

2026년 5월 20일

[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!

vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.

#vLLM #PyTorch #Optimization #Performance #DeepLearning #Qwen3.5 #einops #flatten

2026년 5월 18일

[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석

FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.

#FlashInfer #CUDA #DiT #SageAttention #Quantization #DeepLearning

2026년 5월 1일

[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석

Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.

#Triton #GPU #Optimization #Attention #DeepLearning

2026년 4월 23일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선

Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.

#vLLM #CUDA #Performance #Triton #DeepLearning

2026년 4월 10일

[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선

Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.

#vLLM #Mamba #Optimization #DeepLearning #Performance

2026년 4월 3일