[axolotl] Axolotl 커스텀 Triton 커널 — entropy/softmax 최대 5배 가속Triton 커널로 entropy_from_logits와 selective_log_softmax를 fuse하여 RLHF 학습을 가속한다#Triton#RLHF#Kernel Optimization#Axolotl2026년 3월 19일댓글 수 로딩 중
[Ray] find_gcs_addresses 결과 캐싱으로 프로세스 스캔 비용 제거매번 프로세스 목록을 스캔하던 GCS 주소 탐색을 캐싱하여 성능 개선#Ray#Performance2026년 3월 18일댓글 수 로딩 중
[Loki] Shard Factor 1일 때 Shuffle Shard 생략으로 메모리 50% 절감단일 파티션 할당 시 불필요한 ShuffleShard 호출을 건너뛰어 CPU와 메모리 사용량 대폭 절감.#Grafana Loki#Go#Performance#Memory Optimization#Kafka2026년 3월 18일댓글 수 로딩 중
[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.#Triton#AMD#GPU#AsyncCopy#GFX12502026년 3월 18일댓글 수 로딩 중
[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.#LLM#vLLM#Inference#Optimization#Python#PyTorch2026년 3월 18일댓글 수 로딩 중
[triton] triton-ext Plugin API에 문자열 인자 지원 추가Triton 확장 플러그인의 addPass API에 문자열 인자를 전달할 수 있도록 확장하여, 커스텀 패스의 설정 가능성을 높인 PR을 분석합니다.#Triton#Plugin#API#MLIR#Extension2026년 3월 18일댓글 수 로딩 중
[llm-compressor] AWQ DDP - 분산 데이터 병렬 AWQ 양자화AWQ 양자화에 DDP(Distributed Data Parallel)를 적용하여 멀티 GPU에서 캘리브레이션 속도 향상#llm-compressor#Performance2026년 3월 18일댓글 수 로딩 중
[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.#Triton#AMD#gfx1250#SharedMemory#Padding#BankConflict2026년 3월 17일댓글 수 로딩 중
[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.#Ray#Python#Performance#GPU#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[axolotl] Async GRPO 지원: vLLM 비동기 생성과 Importance Sampling으로 RLHF 학습 가속화axolotl에 Async GRPO를 도입하여 vLLM 생성과 학습을 병렬화하고, Importance Sampling 보정으로 분포 이동 문제를 해결한 대규모 기능 추가를 분석합니다.#Axolotl#GRPO#RLHF#vLLM#Async Training#LoRA2026년 3월 17일댓글 수 로딩 중
[llm-compressor] Intermediates Cache Prefetch - 중간 결과 프리페칭양자화 캘리브레이션의 중간 결과를 프리페칭하여 레이어 순차 처리의 대기 시간을 감소#llm-compressor#Performance2026년 3월 17일댓글 수 로딩 중
[ray] Ray Serve P99 레이턴시 회귀 수정 — 큐 길이 캐시 미감소 버그큐 길이 캐시가 증가만 하고 감소하지 않아 발생한 P99 레이턴시 회귀를 수정#Python#Ray Serve#Performance#Bug Fix#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[pytest] request.getfixturevalue()의 dirty optimization 제거동적으로 요청한 fixture를 arg2fixturedefs에 추가하던 불필요한 최적화를 제거하고 Mapping 타입으로 변경#Python#pytest#Fixtures#Refactoring#Code Quality2026년 3월 17일댓글 수 로딩 중
[axolotl] transformers 5.3.0 / TRL 0.29.0 업그레이드: API 변경 대응과 deprecated 설정 처리transformers 5.3.0과 TRL 0.29.0으로의 메이저 의존성 업그레이드에서 발생하는 breaking change를 체계적으로 처리한 사례를 분석합니다.#Axolotl#Transformers#TRL#Dependency Upgrade#Migration2026년 3월 16일댓글 수 로딩 중
[Ultralytics] TensorRT 문서에서 더 이상 유효하지 않은 INT8 배치 2배 참조 제거INT8 캘리브레이션 시 배치 크기를 자동으로 2배로 늘리던 동작이 제거된 후, 관련 문서를 업데이트합니다.#Ultralytics#TensorRT#INT8#Quantization#Documentation2026년 3월 16일댓글 수 로딩 중
[triton] Consumer Blackwell(sm_120)에서 PTX Codegen Segfault 수정RTX 5070 Ti 등 consumer Blackwell GPU에서 sm_120a suffix 사용으로 인한 런타임 segfault를 수정한 사례를 분석합니다.#Triton#NVIDIA#GPU#Blackwell#PTX#BugFix2026년 3월 16일댓글 수 로딩 중
[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속#vllm#Performance2026년 3월 16일댓글 수 로딩 중
[triton] Fork된 서브프로세스에서 간헐적 SIGABRT 충돌 수정LLVM의 내부 병렬 처리가 fork-safe하지 않아 발생하는 간헐적 SIGABRT를 LLVM 스레드 풀 비활성화로 해결한 PR 분석.#Triton#LLVM#Fork#SIGABRT#Threading#BugFix2026년 3월 16일댓글 수 로딩 중
[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#Atomics2026년 3월 16일댓글 수 로딩 중
[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.#Ray#C++#Performance#OOM#Memory Management2026년 3월 16일댓글 수 로딩 중