[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석#Axolotl#MoE#Tiled-MLP#FSDP2#최적화#성능 개선#딥러닝2026년 5월 28일댓글 수 로딩 중
[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.#FlashInfer#CuTe DSL#FMHA#Prefill#최적화#성능 개선#딥러닝#LLM2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.#vLLM#Arm CPU#BF16#GELU#최적화#성능 개선#LUT2026년 4월 16일댓글 수 로딩 중
[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.#vLLM#Nemotron Nano VL#Pixel Shuffle#최적화#성능 개선#PyTorch2026년 4월 10일댓글 수 로딩 중