#딥러닝

8개의 포스트

[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화

Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석

#Axolotl #MoE #Tiled-MLP #FSDP2 #최적화 #성능 개선 #딥러닝

2026년 5월 28일

[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화

SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.

#SGLang #성능 최적화 #딥러닝 #컴퓨터 비전 #LLM

2026년 5월 17일

[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화

DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.

#AI #딥러닝 #최적화 #FP8 #GPU

2026년 5월 12일

[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입

NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.

#NPU #성능 최적화 #딥러닝 #LLM #SGLang

2026년 5월 12일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화

HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석

#AI #딥러닝 #최적화 #Triton #HunyuanVideo #VAE

2026년 5월 2일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화

FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.

#FlashInfer #CuTe DSL #FMHA #Prefill #최적화 #성능 개선 #딥러닝 #LLM

2026년 4월 24일