[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.#Review#PEFT#LoRA#Personal Models#Reinforcement Learning#MoE#Infrastructure#Scaling Laws2026년 6월 1일댓글 수 로딩 중
[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.#Review#LLM Pre-training#Next Implicit Token Prediction#Representation Geometry#Representation Degeneration#Self-supervised Learning#MoE#Representation Expressivity2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Confidence-Adaptive SwiGLU for Mixture-of-Experts본 논문은 MoE 모델 내 SwiGLU 활성화 함수의 게이트 선택성이 훈련 과정 전반에 걸쳐 고정되어 있다는 점을 해결하고자 합니다.#Review#Mixture-of-Experts#SwiGLU#Gate Sharpness#Routing Confidence#Transformer#Activation Function#MoE2026년 6월 1일댓글 수 로딩 중
[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.#vLLM#CUDA#MoE#Optimization#MiniMax-M2#LLM Serving2026년 5월 30일댓글 수 로딩 중
[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석#Axolotl#MoE#Tiled-MLP#FSDP2#최적화#성능 개선#딥러닝2026년 5월 28일댓글 수 로딩 중
[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.#vLLM#MoE#CUDA#PerformanceOptimization#DeepLearning2026년 5월 28일댓글 수 로딩 중
[vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출vLLM에서 ROCm 환경의 AITER MoE 연산 성능을 개선하기 위해 새로운 환경 변수를 도입하여 최적화 옵션을 제공합니다.#vLLM#ROCm#AITER#MoE#Performance Optimization#Environment Variable2026년 5월 27일댓글 수 로딩 중
[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.#SGLang#MoE#CUDA#Kernel Optimization#LLM2026년 5월 25일댓글 수 로딩 중
[LlamaFactory] LlamaFactory의 Triton 기반 Fused MoE 커널 도입: 40% 이상의 성능 향상Triton으로 구현된 Fused MoE 커널을 통해 Mixtral 등 MoE 모델의 학습 속도를 획기적으로 개선합니다.#LlamaFactory#Triton#MoE#DeepLearning#Optimization2026년 5월 20일댓글 수 로딩 중
[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석#AI#LLM#Optimization#Triton#DeepSeekV4#MoE2026년 5월 18일댓글 수 로딩 중
[sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입NPU 환경에서 Shared Expert와 Routed Expert 연산을 독립적인 스트림으로 분리하여 MoE 모델의 처리량을 11% 이상 향상시켰습니다.#SGLang#NPU#MoE#Performance Optimization#Deep Learning2026년 5월 11일댓글 수 로딩 중
[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.#SGLang#Triton#DeepSeek#MoE#PerformanceOptimization2026년 5월 9일댓글 수 로딩 중
[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.#FlashInfer#GEMM#MoE#FP8#CUDA#최적화2026년 5월 8일댓글 수 로딩 중
[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.#CUDA#MoE#Blackwell#Performance#Triton2026년 5월 7일댓글 수 로딩 중
[transformers] Hugging Face Transformers: MoE 및 FP8 커널 최적화를 통한 성능 향상Hugging Face Transformers 라이브러리의 MoE 및 FP8 커널 최적화를 통해 성능을 개선하고 안정성을 높인 PR 분석#transformers#optimization#MoE#FP8#performance#kernel2026년 5월 4일댓글 수 로딩 중
[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.#vLLM#Humming#MoE#Quantization#Performance Optimization#DeepSeek-V4#MXFP42026년 5월 3일댓글 수 로딩 중
[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.#FlashInfer#TRTLLM#MoE#NemotronH#FP4#FP8#Kernel Optimization#Deep Learning#Performance2026년 4월 29일댓글 수 로딩 중
[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.#SGLang#MoE#AMD GPU#최적화#성능#AIter#GPU Kernel2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.#FlashInfer#LLM#Autotuning#Optimization#MoE2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.#vLLM#MXFP4#MoE#Quantization#CUTLASS#Performance Optimization#SM1002026년 4월 18일댓글 수 로딩 중
[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.#vLLM#CI/CD#Optimization#MoE#Python2026년 4월 18일댓글 수 로딩 중
[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.#Triton#MoE#Qwen3.5#Kernel-Fusion#SGLang#AMD2026년 4월 15일댓글 수 로딩 중
[llm-compressor] Modeling Overrides: DeepSeek/Llama4/Qwen3 등 모델별 패치modeling 디렉토리가 DeepSeek-V3, Llama-4, Qwen3-MoE, GPT-OSS 등 특수 아키텍처를 llm-compressor에 맞춰 override하는 구조 분석#llm-compressor#Modeling#MoE#Override2026년 4월 13일댓글 수 로딩 중
[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.#SGLang#Intel GPU#XPU#MoE#GPT-OSS#Deep Learning Optimization2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.#vLLM#Quantization#MXFP8#MoE#Performance-Optimization2026년 4월 12일댓글 수 로딩 중
[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.#sglang#CUTLASS#MoE#GEMM Kernel#NVIDIA2026년 4월 12일댓글 수 로딩 중
[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.#SGLang#DeepSeek#MoE#DeepEP#LLM Inference2026년 4월 9일댓글 수 로딩 중
[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.#llm-compressor#Gemma4#MoE#양자화#최적화#기술 블로그2026년 4월 7일댓글 수 로딩 중
[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.#SGLang#FlashInfer#TRT-LLM#MoE#FP8#최적화#성능#MiniMax-M2.52026년 4월 2일댓글 수 로딩 중
[sglang] DeepEP Low Latency FP8 Dispatch 변경 revertDeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보#SGLang#DeepEP#MoE#FP8#Revert2026년 3월 31일댓글 수 로딩 중
[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결#SGLang#AMD#ROCm#MoE#GEMM2026년 3월 31일댓글 수 로딩 중
[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.#SGLang#Qwen3.5#MoE#Pipeline Parallelism#Mamba#Bug Fix2026년 3월 30일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[Axolotl] 가중치 동기 로딩으로 OOM 방지MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정#Axolotl#MoE#OOM#Memory Optimization#Quantization2026년 3월 7일댓글 수 로딩 중
[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.#Axolotl#MoE#ScatterMoE#Triton#Routing#Telemetry2026년 3월 6일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Arcee Trinity Large Technical Report본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sparse LLM#Training Stability#Load Balancing#MoE#Transformer Architecture#Context Extension#Muon Optimizer2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Progressive Learning#Width Expansion#Signal Preservation#Symmetry Breaking#LLM#Training Stability#MoE#RMSNorm2026년 2월 2일댓글 수 로딩 중
[논문리뷰] ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation대규모 언어 모델(LLMs)이 모든 토큰에 균일하게 연산을 할당하여 비효율적인 연산 자원 사용을 초래하는 문제를 해결하는 것이 목표입니다.#Review#MoE#LLMs#Adaptive Compression#Token Merging#Compute Allocation#Efficiency#Vision-Language Models#Continual Training2026년 1월 29일댓글 수 로딩 중
[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.#Review#GUI Agent#Multimodal AI#MoE#Data Synthesis#Reinforcement Learning#Cross-Platform#Benchmarking2026년 1월 28일댓글 수 로딩 중
[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.#Triton#NVIDIA#Membar#Optimization#MoE2026년 1월 22일댓글 수 로딩 중
[SGLang] MoE 모델을 위한 Single Batch Overlap 기법Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다#SGLang#MoE#GPU Optimization#Inference2025년 12월 3일댓글 수 로딩 중
[triton] Matmul에서 Split-K Reduction과 Inter-Expert Reduction 분리Triton Kernels의 matmul_ogs에서 split-k reduction을 inter-expert reduction과 분리하여 MoE 파이프라인의 유연성을 높인 PR 분석.#Triton#MatMul#SplitK#MoE#Reduction#Refactoring2025년 10월 29일댓글 수 로딩 중
[triton] Expert Parallelism 기본 구현과 Reduce 커널 추가Triton Kernels 라이브러리에 Expert Parallelism을 위한 기본 구현과 독립적인 reduce 커널을 추가하여 MoE 워크로드의 분산 처리를 지원하는 PR 분석.#Triton#ExpertParallelism#MoE#Reduce#Distributed#GPU2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.#Review#MoE#Reinforcement Learning#Training Stability#Routing#Policy Alignment#Rollout Routing Replay#LLMs2025년 10월 27일댓글 수 로딩 중