#MLX

7개의 포스트

[sglang] Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화

Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화하는 PR 분석

#Apple Silicon #MLX #MoE #Optimization #SGLang

2026년 6월 13일

[ollama] Ollama MLX Sampler 최적화: 성능 향상과 Logprobs 지원

Ollama의 MLX 러너에서 샘플링 로직을 개선하여 성능을 약 1.5% 향상하고 Logprobs 기능을 통합했습니다.

#Ollama #MLX #LLM #Performance #Golang

2026년 4월 21일

[ollama] Ollama MLX Gemma4 성능 최적화: Fused Operations를 통한 효율성 증대

Ollama의 MLX 백엔드에서 Gemma4 모델의 성능을 fused operations로 최적화한 PR 분석.

#Ollama #MLX #Gemma4 #성능 최적화 #Fused Operations #Deep Learning #Go #Machine Learning

2026년 4월 15일

[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화

SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.

#sglang #Hardware Backend #MLX #NPU #XPU #Abstraction

2026년 4월 15일

[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감

MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.

#MLX #Apple Silicon #VAE #Memory Optimization #Performance

2026년 4월 7일

[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상

PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.

#Apple Silicon #MLX #Diffusion Transformer #Performance Optimization #PyTorch

2026년 2월 11일

[ACE-Step-1.5] Apple Silicon 맥북에서 MLX 네이티브 백엔드로 5Hz LM 추론 속도 혁신

Apple Silicon 맥북의 Metal GPU를 활용하여 5Hz LM 추론 속도를 획기적으로 개선하는 MLX 네이티브 백엔드 도입.

#MLX #Apple Silicon #Metal GPU #LLM Inference #Performance Optimization #ACE-Step

2026년 2월 8일