#MoE

45개의 포스트

[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.

#Review #PEFT #LoRA #Personal Models #Reinforcement Learning #MoE #Infrastructure #Scaling Laws

2026년 6월 1일

[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training

본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Pre-training #Next Implicit Token Prediction #Representation Geometry #Representation Degeneration #Self-supervised Learning #MoE #Representation Expressivity

2026년 6월 1일

[논문리뷰] Confidence-Adaptive SwiGLU for Mixture-of-Experts

본 논문은 MoE 모델 내 SwiGLU 활성화 함수의 게이트 선택성이 훈련 과정 전반에 걸쳐 고정되어 있다는 점을 해결하고자 합니다.

#Review #Mixture-of-Experts #SwiGLU #Gate Sharpness #Routing Confidence #Transformer #Activation Function #MoE

2026년 6월 1일

[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기

vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.

#vLLM #CUDA #MoE #Optimization #MiniMax-M2 #LLM Serving

2026년 5월 30일

[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화

Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석

#Axolotl #MoE #Tiled-MLP #FSDP2 #최적화 #성능 개선 #딥러닝

2026년 5월 28일

[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상

MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.

#vLLM #MoE #CUDA #PerformanceOptimization #DeepLearning

2026년 5월 28일

[vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출

vLLM에서 ROCm 환경의 AITER MoE 연산 성능을 개선하기 위해 새로운 환경 변수를 도입하여 최적화 옵션을 제공합니다.

#vLLM #ROCm #AITER #MoE #Performance Optimization #Environment Variable

2026년 5월 27일

[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화

Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.

#SGLang #MoE #CUDA #Kernel Optimization #LLM

2026년 5월 25일

[LlamaFactory] LlamaFactory의 Triton 기반 Fused MoE 커널 도입: 40% 이상의 성능 향상

Triton으로 구현된 Fused MoE 커널을 통해 Mixtral 등 MoE 모델의 학습 속도를 획기적으로 개선합니다.

#LlamaFactory #Triton #MoE #DeepLearning #Optimization

2026년 5월 20일

[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석

DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석

#AI #LLM #Optimization #Triton #DeepSeekV4 #MoE

2026년 5월 18일

[sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입

NPU 환경에서 Shared Expert와 Routed Expert 연산을 독립적인 스트림으로 분리하여 MoE 모델의 처리량을 11% 이상 향상시켰습니다.

#SGLang #NPU #MoE #Performance Optimization #Deep Learning

2026년 5월 11일

[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화

PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.

#SGLang #Triton #DeepSeek #MoE #PerformanceOptimization

2026년 5월 9일

[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트

FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.

#FlashInfer #GEMM #MoE #FP8 #CUDA #최적화

2026년 5월 8일

[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석

FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.

#CUDA #MoE #Blackwell #Performance #Triton

2026년 5월 7일

[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상

Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석

#transformers #optimization #MoE #FP8 #performance #kernel

2026년 5월 4일

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일

[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상

FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.

#FlashInfer #TRTLLM #MoE #NemotronH #FP4 #FP8 #Kernel Optimization #Deep Learning #Performance

2026년 4월 29일

[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용

AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.

#SGLang #MoE #AMD GPU #최적화 #성능 #AIter #GPU Kernel

2026년 4월 25일

[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입

기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.

#FlashInfer #LLM #Autotuning #Optimization #MoE

2026년 4월 24일

[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상

vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.

#vLLM #MXFP4 #MoE #Quantization #CUTLASS #Performance Optimization #SM100

2026년 4월 18일

[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기

불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.

#vLLM #CI/CD #Optimization #MoE #Python

2026년 4월 18일

[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석

4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.

#Triton #MoE #Qwen3.5 #Kernel-Fusion #SGLang #AMD

2026년 4월 15일

[llm-compressor] Modeling Overrides: DeepSeek/Llama4/Qwen3 등 모델별 패치

modeling 디렉토리가 DeepSeek-V3, Llama-4, Qwen3-MoE, GPT-OSS 등 특수 아키텍처를 llm-compressor에 맞춰 override하는 구조 분석

#llm-compressor #Modeling #MoE #Override

2026년 4월 13일

[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석

Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.

#SGLang #Intel GPU #XPU #MoE #GPT-OSS #Deep Learning Optimization

2026년 4월 13일

[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석

vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.

#vLLM #Quantization #MXFP8 #MoE #Performance-Optimization

2026년 4월 12일

[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산

SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.

#sglang #CUTLASS #MoE #GEMM Kernel #NVIDIA

2026년 4월 12일

[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석

DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.

#SGLang #DeepSeek #MoE #DeepEP #LLM Inference

2026년 4월 9일

[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석

llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.

#llm-compressor #Gemma4 #MoE #양자화 #최적화 #기술 블로그

2026년 4월 7일

[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화

SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.

#SGLang #FlashInfer #TRT-LLM #MoE #FP8 #최적화 #성능 #MiniMax-M2.5

2026년 4월 2일

[sglang] DeepEP Low Latency FP8 Dispatch 변경 revert

DeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보

#SGLang #DeepEP #MoE #FP8 #Revert

2026년 3월 31일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일

[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정

SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.

#SGLang #Qwen3.5 #MoE #Pipeline Parallelism #Mamba #Bug Fix

2026년 3월 30일

[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합

ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.

#Axolotl #ScatterMoE #LoRA #Triton #MoE #Benchmark #GPU #Performance

2026년 3월 19일

[Axolotl] 가중치 동기 로딩으로 OOM 방지

MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정

#Axolotl #MoE #OOM #Memory Optimization #Quantization

2026년 3월 7일

[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가

MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.

#Axolotl #MoE #ScatterMoE #Triton #Routing #Telemetry

2026년 3월 6일

[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선

MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.

#MoE #Triton #Kernel Fusion #GPU Optimization #LLM Inference #SGLang

2026년 3월 4일

[논문리뷰] Arcee Trinity Large Technical Report

본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.

#Review #Mixture-of-Experts #Sparse LLM #Training Stability #Load Balancing #MoE #Transformer Architecture #Context Extension #Muon Optimizer

2026년 2월 19일

[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Progressive Learning #Width Expansion #Signal Preservation #Symmetry Breaking #LLM #Training Stability #MoE #RMSNorm

2026년 2월 2일

[논문리뷰] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

대규모 언어 모델(LLMs)이 모든 토큰에 균일하게 연산을 할당하여 비효율적인 연산 자원 사용을 초래하는 문제를 해결하는 것이 목표입니다.

#Review #MoE #LLMs #Adaptive Compression #Token Merging #Compute Allocation #Efficiency #Vision-Language Models #Continual Training

2026년 1월 29일

[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.

#Review #GUI Agent #Multimodal AI #MoE #Data Synthesis #Reinforcement Learning #Cross-Platform #Benchmarking

2026년 1월 28일

[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상

Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.

#Triton #NVIDIA #Membar #Optimization #MoE

2026년 1월 22일

[SGLang] MoE 모델을 위한 Single Batch Overlap 기법

Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다

#SGLang #MoE #GPU Optimization #Inference

2025년 12월 3일

[triton] Matmul에서 Split-K Reduction과 Inter-Expert Reduction 분리

Triton Kernels의 matmul_ogs에서 split-k reduction을 inter-expert reduction과 분리하여 MoE 파이프라인의 유연성을 높인 PR 분석.

#Triton #MatMul #SplitK #MoE #Reduction #Refactoring

2025년 10월 29일

[triton] Expert Parallelism 기본 구현과 Reduce 커널 추가

Triton Kernels 라이브러리에 Expert Parallelism을 위한 기본 구현과 독립적인 reduce 커널을 추가하여 MoE 워크로드의 분산 처리를 지원하는 PR 분석.

#Triton #ExpertParallelism #MoE #Reduce #Distributed #GPU

2025년 10월 16일

[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.

#Review #MoE #Reinforcement Learning #Training Stability #Routing #Policy Alignment #Rollout Routing Replay #LLMs

2025년 10월 27일