PR Analysis

[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료

메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.

#Ray #C++#Performance #OOM #Memory Management

2026년 3월 16일

[axolotl] FSDP CPU RAM Efficient Loading 패치: non-rank-0 프로세스의 불필요한 가중치 초기화 방지

FSDP 분산 학습에서 cpu_ram_efficient_loading 사용 시 non-rank-0 프로세스가 가중치를 재초기화하는 문제를 monkeypatch로 해결한 사례를 분석합니다.

#Axolotl #FSDP #Distributed Training #Memory Optimization #Monkeypatch

2026년 3월 16일

[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신

FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속

#vllm #Performance

2026년 3월 16일

[Uvicorn] bytes에서 bytearray로 변경하여 HTTP 바디 누적 O(n²) → O(n) 개선

요청 바디 누적에서 bytes += 대신 bytearray +=를 사용하여 O(n²) 메모리 복사를 amortized O(1)로 개선한 분석.

#Uvicorn #Python #Performance #HTTP #ASGI #Memory

2026년 3월 15일

[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정

AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.

#Triton #AMD #GPU #Atomics #BugFix

2026년 3월 14일

[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정

AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.

#Triton #AMD #TDM #Pipeline #BufferRace #BugFix

2026년 3월 14일

[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화

Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법

#Triton #GPU #CUDA #MatMul #HighPerformanceComputing

2026년 3월 13일

[PaddleOCR] PaddleOCR-VL 배포 문서 개선 — Docker 이미지 및 디바이스 호환성 가이드 추가

PaddleOCR-VL의 배포 문서를 Docker 중심으로 재구성하고, 디바이스 호환성 매트릭스와 오프라인 환경 가이드를 추가합니다.

#PaddleOCR #Docker #Deployment #Documentation #DevOps

2026년 3월 13일

[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거

동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.

#Ray #Python #Performance #Caching #Autoscaler

2026년 3월 13일

[Loki] 쿼리 엔진 캐시 정확성 테스트 추가

결과 캐시의 정확성을 검증하는 통합 테스트로 캐시 히트/미스 시 동일한 결과를 보장.

#Grafana Loki #Go #Performance #Testing #Caching

2026년 3월 13일

[Loki] 포인터 읽기 배치 크기 증가로 인덱스 조회 25% 가속

포인터/블룸 읽기 배치를 128에서 8192로 증가시켜 I/O 효율 개선

#Grafana Loki #DataObj #Batch Size #Performance

2026년 3월 13일

[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보

워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.

#Ray #Python #Testing #Memory Management #Observability

2026년 3월 13일

[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교

Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다

#Triton #CUDA #Matrix Multiplication #FP8 #Blackwell

2026년 3월 13일

[Ultralytics] 캘리브레이션 데이터셋이 배치보다 작을 때 에러 대신 자동 조정

INT8 캘리브레이션 데이터셋이 batch 크기보다 작으면 에러를 던지던 동작을 자동 조정 + 경고로 개선합니다.

#Ultralytics #YOLO #INT8 #Calibration #Export

2026년 3월 12일

[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링

preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.

#Triton #AMD #GPU #FlashAttention #GFX1250 #Refactoring

2026년 3월 12일

[Ray] Ray Data에 cuDF 배치 포맷 추가

Ray Data의 batch_format에 cudf.DataFrame을 추가해 GPU 네이티브 데이터 처리 파이프라인 지원

#Ray #GPU #cuDF #Data Processing

2026년 3월 12일

[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결

PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.

#PyTorch #Inductor #Precision #bf16 #fp16 #Pattern Matching #Compiler

2026년 3월 11일

[Grafana Loki] 배치 처리를 파이프라인 래퍼로 분리하여 캐시 통합 준비

실행기의 drain 로직에 섞여 있던 배치 처리를 독립 파이프라인으로 추출하여, 태스크 캐시 구현의 기반을 마련한 리팩터링 분석.

#Grafana Loki #Go #Refactoring #Pipeline #Arrow

2026년 3월 11일

[PyTorch] Inductor MPS Metal 셰이더 half-precision 타입 불일치 수정

Metal 셰이더 codegen에서 half 타입의 masked/where 연산 시 타입 불일치를 static_cast로 수정한다

#PyTorch #MPS #Metal #Bug Fix

2026년 3월 11일

[Loki] Helm 차트 Memcached CPU 리소스 오버라이드 지원 추가

Grafana Loki Helm 차트의 자동 리소스 계산 모드에서 하드코딩된 500m CPU 대신, allocatedCPU 값으로 오버라이드할 수 있도록 개선한 변경 사항을 분석합니다.

#Grafana Loki #Helm #Kubernetes #Memcached #Resource Management

2026년 3월 10일