PR Analysis

[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화

Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.

#Triton #PyTorch #Optimization #Deep Learning #Performance #GPU

2026년 3월 19일

[axolotl] Triton LoRA 커널 Autotune 테스트 안정화: pytest-xdist 환경에서의 모듈 격리 전략

pytest-xdist 병렬 실행 시 sys.modules 공유로 인한 flaky 테스트를 _find_lora_ops_module 직접 패치 방식으로 해결한 사례를 분석합니다.

#Axolotl #Triton #Testing #pytest #LoRA

2026년 3월 19일

[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속

Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다

#Triton #RLHF #Kernel Optimization #Axolotl

2026년 3월 19일

[Ray] find_gcs_addresses 결과 캐싱으로 프로세스 스캔 비용 제거

매번 프로세스 목록을 스캔하던 GCS 주소 탐색을 캐싱하여 성능 개선

#Ray #Performance

2026년 3월 18일

[Loki] Shard Factor 1일 때 Shuffle Shard 생략으로 메모리 50% 절감

단일 파티션 할당 시 불필요한 ShuffleShard 호출을 건너뛰어 CPU와 메모리 사용량 대폭 절감.

#Grafana Loki #Go #Performance #Memory Optimization #Kafka

2026년 3월 18일

[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹

브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #GFX1250

2026년 3월 18일

[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기

nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.

#LLM #vLLM #Inference #Optimization #Python #PyTorch

2026년 3월 18일

[triton] triton-ext Plugin API에 문자열 인자 지원 추가

Triton 확장 플러그인의 addPass API에 문자열 인자를 전달할 수 있도록 확장하여, 커스텀 패스의 설정 가능성을 높인 PR을 분석합니다.

#Triton #Plugin #API #MLIR #Extension

2026년 3월 18일

[llm-compressor] AWQ DDP - 분산 데이터 병렬 AWQ 양자화

AWQ 양자화에 DDP(Distributed Data Parallel)를 적용하여 멀티 GPU에서 캘리브레이션 속도 향상

#llm-compressor #Performance

2026년 3월 18일

[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합

AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.

#Triton #AMD #gfx1250 #SharedMemory #Padding #BankConflict

2026년 3월 17일

[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속

CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.

#Ray #Python #Performance #GPU #Distributed Systems

2026년 3월 17일

[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화

axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.

#Axolotl #GRPO #RLHF #vLLM #Async Training #LoRA

2026년 3월 17일

[llm-compressor] Intermediates Cache Prefetch - 중간 결과 프리페칭

양자화 캘리브레이션의 중간 결과를 프리페칭하여 레이어 순차 처리의 대기 시간을 감소

#llm-compressor #Performance

2026년 3월 17일

[ray] Ray Serve P99 레이턴시 회귀 수정 — 큐 길이 캐시 미감소 버그

큐 길이 캐시가 증가만 하고 감소하지 않아 발생한 P99 레이턴시 회귀를 수정

#Python #Ray Serve #Performance #Bug Fix #Distributed Systems

2026년 3월 17일

[pytest] request.getfixturevalue()의 dirty optimization 제거

동적으로 요청한 fixture를 arg2fixturedefs에 추가하던 불필요한 최적화를 제거하고 Mapping 타입으로 변경

#Python #pytest #Fixtures #Refactoring #Code Quality

2026년 3월 17일

[axolotl] transformers 5.3.0 / TRL 0.29.0 업그레이드: API 변경 대응과 deprecated 설정 처리

transformers 5.3.0과 TRL 0.29.0으로의 메이저 의존성 업그레이드에서 발생하는 breaking change를 체계적으로 처리한 사례를 분석합니다.

#Axolotl #Transformers #TRL #Dependency Upgrade #Migration

2026년 3월 16일

[Ultralytics] TensorRT 문서에서 더 이상 유효하지 않은 INT8 배치 2배 참조 제거

INT8 캘리브레이션 시 배치 크기를 자동으로 2배로 늘리던 동작이 제거된 후, 관련 문서를 업데이트합니다.

#Ultralytics #TensorRT #INT8 #Quantization #Documentation

2026년 3월 16일

[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정

RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.

#Triton #NVIDIA #GPU #Blackwell #PTX #BugFix

2026년 3월 16일

[triton] Fork된 서브프로세스에서 간헐적 SIGABRT 충돌 수정

LLVM의 내부 병렬 처리가 fork-safe하지 않아 발생하는 간헐적 SIGABRT를 LLVM 스레드 풀 비활성화로 해결한 PR 분석.

#Triton #LLVM #Fork #SIGABRT #Threading #BugFix

2026년 3월 16일

[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화

GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #Atomics

2026년 3월 16일