[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.#vLLM#PyTorch#Optimization#Performance#DeepLearning#Qwen3.5#einops#flatten2026년 5월 18일댓글 수 로딩 중
[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.#FlashInfer#CUDA#DiT#SageAttention#Quantization#DeepLearning2026년 5월 1일댓글 수 로딩 중
[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.#Triton#GPU#Optimization#Attention#DeepLearning2026년 4월 23일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.#vLLM#CUDA#Performance#Triton#DeepLearning2026년 4월 10일댓글 수 로딩 중
[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.#vLLM#Mamba#Optimization#DeepLearning#Performance2026년 4월 3일댓글 수 로딩 중