[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.#Axolotl#Triton#ScatterMoE#LoRA#Autotune#Performance#GPU2026년 3월 21일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.#Axolotl#MoE#ScatterMoE#Triton#Routing#Telemetry2026년 3월 6일댓글 수 로딩 중