#Axolotl

22개의 포스트

[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가

GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.

#Axolotl #GRPO #LLM Training #Performance #Flash Attention #PyTorch #Reinforcement Learning

2026년 3월 28일

[Axolotl] 플러그인에 scored rollout 디스패치, 외부 플러그인 경로 확장, vLLM 에러 처리 개선

Axolotl GRPO 트레이너에 on_rollouts_scored 플러그인 훅 추가, pkgutil로 외부 플러그인 발견 경로 확장, vLLM /reset_prefix_cache의 에러 처리를 개선한 분석.

#Axolotl #Plugin System #GRPO #vLLM #Error Handling #Python

2026년 3월 25일

[Axolotl] LoRA 커널에 bias, dropout, DoRA, embedding 지원 추가

Axolotl의 Triton LoRA 커널을 확장하여 bias 파라미터, dropout, DoRA(Weight-Decomposed LoRA), embedding 레이어를 지원하도록 개선한 분석.

#Axolotl #LoRA #DoRA #Triton #LLM Training #Performance #PEFT

2026년 3월 22일

[Axolotl] Qwen 3.5 모델 Liger 커널 지원 및 fused RMSNorm+Gated 커널 추가

Axolotl에 Qwen 3.5 / Qwen 3.5 MoE 모델용 Liger FLCE 커널 지원과 fused RMSNorm+SiLU gate Triton 커널을 추가한 분석.

#Axolotl #Liger Kernel #Qwen 3.5 #RMSNorm #Triton #LLM Training #Performance

2026년 3월 22일

[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소

ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.

#Axolotl #Triton #ScatterMoE #LoRA #Autotune #Performance #GPU

2026년 3월 21일

[axolotl] Context Parallel 이중 시퀀스 분할 버그 수정: noop context manager로 중복 적용 방지

Context Parallel 학습 시 accelerate와 axolotl이 시퀀스를 이중으로 분할하는 문제를 noop context manager 패치로 해결한 사례를 분석합니다.

#Axolotl #Context Parallel #Distributed Training #Bug Fix

2026년 3월 20일

[axolotl] Tensor Parallelism batch_size 계산 버그 수정: dp_world_size 기반으로 전환

Tensor Parallelism 환경에서 batch_size와 total_num_steps가 잘못 계산되던 버그를 dp_world_size 기반으로 수정하고, 파라미터화된 테스트를 추가한 사례를 분석합니다.

#Axolotl #Tensor Parallelism #Distributed Training #Bug Fix

2026년 3월 20일

[axolotl] Gemma 3 QLoRA 설정 개선: Vision Tower 동결과 model_type 제거

Gemma 3 모델의 QLoRA 학습 설정에서 불필요한 model_type 명시를 제거하고, unfrozen_parameters로 Vision Tower를 동결하는 패턴을 분석합니다.

#Axolotl #Gemma3 #QLoRA #Fine-tuning #Configuration

2026년 3월 20일

[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합

ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.

#Axolotl #ScatterMoE #LoRA #Triton #MoE #Benchmark #GPU #Performance

2026년 3월 19일

[axolotl] Triton LoRA 커널 Autotune 테스트 안정화: pytest-xdist 환경에서의 모듈 격리 전략

pytest-xdist 병렬 실행 시 sys.modules 공유로 인한 flaky 테스트를 _find_lora_ops_module 직접 패치 방식으로 해결한 사례를 분석합니다.

#Axolotl #Triton #Testing #pytest #LoRA

2026년 3월 19일

[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속

Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다

#Triton #RLHF #Kernel Optimization #Axolotl

2026년 3월 19일

[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화

axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.

#Axolotl #GRPO #RLHF #vLLM #Async Training #LoRA

2026년 3월 17일

[axolotl] transformers 5.3.0 / TRL 0.29.0 업그레이드: API 변경 대응과 deprecated 설정 처리

transformers 5.3.0과 TRL 0.29.0으로의 메이저 의존성 업그레이드에서 발생하는 breaking change를 체계적으로 처리한 사례를 분석합니다.

#Axolotl #Transformers #TRL #Dependency Upgrade #Migration

2026년 3월 16일

[axolotl] FSDP CPU RAM Efficient Loading 패치: non-rank-0 프로세스의 불필요한 가중치 초기화 방지

FSDP 분산 학습에서 cpu_ram_efficient_loading 사용 시 non-rank-0 프로세스가 가중치를 재초기화하는 문제를 monkeypatch로 해결한 사례를 분석합니다.

#Axolotl #FSDP #Distributed Training #Memory Optimization #Monkeypatch

2026년 3월 16일

[Axolotl] 가중치 동기 로딩으로 OOM 방지

MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정

#Axolotl #MoE #OOM #Memory Optimization #Quantization

2026년 3월 7일

[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가

MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.

#Axolotl #MoE #ScatterMoE #Triton #Routing #Telemetry

2026년 3월 6일

[axolotl] 코드 품질 개선: CONTRIBUTING.md 플레이스홀더 수정, bare except 제거, convert.py 테스트 추가

axolotl의 CONTRIBUTING.md 플레이스홀더 문제를 수정하고, bare except를 구체적 예외로 변경하며, convert.py에 대한 단위 테스트를 추가한 사례를 분석합니다.

#Axolotl #Code Quality #Testing #Best Practices

2026년 3월 6일

[Axolotl] MXFP4 양자화 지원 추가

torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석

#Axolotl #Quantization #MXFP4 #QAT #LLM

2026년 3월 5일

[axolotl] Context Parallelism batch_size 및 total_num_steps 계산 수정

Context Parallel 환경에서 batch_size가 과대 계산되고 total_num_steps에 CP size가 잘못 곱해지던 버그를 effective dp world_size 기반으로 수정한 사례를 분석합니다.

#Axolotl #Context Parallel #Distributed Training #Bug Fix

2026년 3월 2일

[axolotl] SchedulerMixin.create_scheduler() optimizer 누락 버그 수정

create_scheduler에 optimizer가 전달되지 않았을 때 self.optimizer로 fallback하지 않아 발생하는 에러를 수정한 사례를 분석합니다.

#Axolotl #Scheduler #Bug Fix #Training

2026년 3월 2일

[axolotl] Flash Optimizer 지원 추가: FlashAdamW, FlashSGD, FlashLion 등 5종 커스텀 옵티마이저

flashoptim 라이브러리의 5가지 Flash Optimizer를 axolotl에 통합하고, FSDP2 전용 검증 로직과 end-to-end 테스트를 추가한 사례를 분석합니다.

#Axolotl #Optimizer #Flash Optimizer #FSDP2 #Training

2026년 2월 10일

[axolotl] Docker 빌드 수정: uv pip cache purge에서 uv cache clean으로 변경

axolotl의 uv 기반 Docker 빌드에서 잘못된 캐시 정리 명령어를 수정한 1줄 변경 사례를 분석합니다.

#Axolotl #Docker #uv #Build

2026년 2월 10일