[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석#Axolotl#MoE#Tiled-MLP#FSDP2#최적화#성능 개선#딥러닝2026년 5월 28일댓글 수 로딩 중
[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.#SGLang#성능 최적화#딥러닝#컴퓨터 비전#LLM2026년 5월 17일댓글 수 로딩 중
[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.#AI#딥러닝#최적화#FP8#GPU2026년 5월 12일댓글 수 로딩 중
[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.#NPU#성능 최적화#딥러닝#LLM#SGLang2026년 5월 12일댓글 수 로딩 중
[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.#FlashInfer#FP8#LLM#최적화#성능 향상#딥러닝2026년 5월 7일댓글 수 로딩 중
[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석#AI#딥러닝#최적화#Triton#HunyuanVideo#VAE2026년 5월 2일댓글 수 로딩 중
[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.#vLLM#AI#딥러닝#최적화#LLM#어텐션#DCP#All-to-All2026년 5월 1일댓글 수 로딩 중
[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.#FlashInfer#CuTe DSL#FMHA#Prefill#최적화#성능 개선#딥러닝#LLM2026년 4월 24일댓글 수 로딩 중