[axolotl] FSDP CPU RAM Efficient Loading 패치: non-rank-0 프로세스의 불필요한 가중치 초기화 방지FSDP 분산 학습에서 cpu_ram_efficient_loading 사용 시 non-rank-0 프로세스가 가중치를 재초기화하는 문제를 monkeypatch로 해결한 사례를 분석합니다.#Axolotl#FSDP#Distributed Training#Memory Optimization#Monkeypatch2026년 3월 16일댓글 수 로딩 중
[Uvicorn] bytes에서 bytearray로 변경하여 HTTP 바디 누적 O(n²) → O(n) 개선요청 바디 누적에서 bytes += 대신 bytearray +=를 사용하여 O(n²) 메모리 복사를 amortized O(1)로 개선한 분석.#Uvicorn#Python#Performance#HTTP#ASGI#Memory2026년 3월 15일댓글 수 로딩 중
[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.#Triton#AMD#GPU#Atomics#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.#Triton#AMD#TDM#Pipeline#BufferRace#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중
[PaddleOCR] PaddleOCR-VL 배포 문서 개선 — Docker 이미지 및 디바이스 호환성 가이드 추가PaddleOCR-VL의 배포 문서를 Docker 중심으로 재구성하고, 디바이스 호환성 매트릭스와 오프라인 환경 가이드를 추가합니다.#PaddleOCR#Docker#Deployment#Documentation#DevOps2026년 3월 13일댓글 수 로딩 중
[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.#Ray#Python#Performance#Caching#Autoscaler2026년 3월 13일댓글 수 로딩 중
[Loki] 쿼리 엔진 캐시 정확성 테스트 추가결과 캐시의 정확성을 검증하는 통합 테스트로 캐시 히트/미스 시 동일한 결과를 보장.#Grafana Loki#Go#Performance#Testing#Caching2026년 3월 13일댓글 수 로딩 중
[Loki] 포인터 읽기 배치 크기 증가로 인덱스 조회 25% 가속포인터/블룸 읽기 배치를 128에서 8192로 증가시켜 I/O 효율 개선#Grafana Loki#DataObj#Batch Size#Performance2026년 3월 13일댓글 수 로딩 중
[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.#Ray#Python#Testing#Memory Management#Observability2026년 3월 13일댓글 수 로딩 중
[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다#Triton#CUDA#Matrix Multiplication#FP8#Blackwell2026년 3월 13일댓글 수 로딩 중
[Ultralytics] 캘리브레이션 데이터셋이 배치보다 작을 때 에러 대신 자동 조정INT8 캘리브레이션 데이터셋이 batch 크기보다 작으면 에러를 던지던 동작을 자동 조정 + 경고로 개선합니다.#Ultralytics#YOLO#INT8#Calibration#Export2026년 3월 12일댓글 수 로딩 중
[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.#Triton#AMD#GPU#FlashAttention#GFX1250#Refactoring2026년 3월 12일댓글 수 로딩 중
[Ray] Ray Data에 cuDF 배치 포맷 추가Ray Data의 batch_format에 cudf.DataFrame을 추가해 GPU 네이티브 데이터 처리 파이프라인 지원#Ray#GPU#cuDF#Data Processing2026년 3월 12일댓글 수 로딩 중
[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.#PyTorch#Inductor#Precision#bf16#fp16#Pattern Matching#Compiler2026년 3월 11일댓글 수 로딩 중
[Grafana Loki] 배치 처리를 파이프라인 래퍼로 분리하여 캐시 통합 준비실행기의 drain 로직에 섞여 있던 배치 처리를 독립 파이프라인으로 추출하여, 태스크 캐시 구현의 기반을 마련한 리팩터링 분석.#Grafana Loki#Go#Refactoring#Pipeline#Arrow2026년 3월 11일댓글 수 로딩 중
[PyTorch] Inductor MPS Metal 셰이더 half-precision 타입 불일치 수정Metal 셰이더 codegen에서 half 타입의 masked/where 연산 시 타입 불일치를 static_cast로 수정한다#PyTorch#MPS#Metal#Bug Fix2026년 3월 11일댓글 수 로딩 중
[Loki] Helm 차트 Memcached CPU 리소스 오버라이드 지원 추가Grafana Loki Helm 차트의 자동 리소스 계산 모드에서 하드코딩된 500m CPU 대신, allocatedCPU 값으로 오버라이드할 수 있도록 개선한 변경 사항을 분석합니다.#Grafana Loki#Helm#Kubernetes#Memcached#Resource Management2026년 3월 10일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중
[triton] Concurrency Sanitizer를 Vendor Target Hooks로 리팩터링Triton의 Concurrency Sanitizer를 벤더 독립적인 인터페이스로 리팩터링하여 NVIDIA 외 다른 GPU 벤더도 지원할 수 있게 한 PR 분석.#Triton#ConSan#Sanitizer#Refactoring#VendorHooks#Architecture2026년 3월 9일댓글 수 로딩 중