[Triton] AMD RDNA에서 matmul_ogs 설정 최적화 — 최대 46% 성능 향상RDNA3/4 GPU에서 block_m/block_n/block_k 설정을 조정하여 레지스터 스필링 해결#Triton#AMD#RDNA#Performance#Kernel Tuning2025년 12월 22일댓글 수 로딩 중
[Open WebUI] FileMetadataResponse의 meta 필드를 Optional로 변경하여 배치 추가 오류 수정Open WebUI에서 메타데이터가 없는 파일을 Knowledge에 배치 추가할 때 Pydantic 유효성 검사 오류가 발생하던 문제를, meta 필드를 Optional로 변경하여 수정한 버그 픽스를 분석합니다.#Open WebUI#Python#Pydantic#Bug Fix#Data Validation2025년 12월 20일댓글 수 로딩 중
[triton] Triton에서 cuBLAS를 활용한 mxfp8 및 nvfp4 블록 스케일 행렬 곱셈 벤치마킹Triton의 블록 스케일 행렬 곱셈 성능을 검증하기 위해 cuBLAS 기반의 베이스라인을 도입하고 튜토리얼을 개선했습니다.#Triton#cuBLAS#mxfp8#nvfp4#Performance2025년 12월 19일댓글 수 로딩 중
[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.#Grafana Loki#Go#Performance#Memory Management#Caching2025년 12월 19일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 19일댓글 수 로딩 중
[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.#Triton#PROTON#CUDA#Profiling#Optimization#MsgPack#C++#Python2025년 12월 19일댓글 수 로딩 중
[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거#Ray#Operator Fusion#Data Pipeline#Performance2025년 12월 19일댓글 수 로딩 중
[Grafana Loki] 스케줄러 Peer 연결 미종료로 인한 메모리 누수 수정streamSink 종료 시 Peer 연결을 닫지 않아 반대편 워커의 Serve()가 영원히 반환되지 않던 메모리 누수를 defer conn.Close()로 해결한 분석.#Grafana Loki#Go#Memory Leak#Distributed Systems#gRPC2025년 12월 19일댓글 수 로딩 중
[triton] CGAEncodingAttr::getDefault를 get1CTALayout/get1DLayout로 분리하여 multi-CTA 지원1CTA 전용이던 getDefault 함수를 명확한 이름의 두 함수로 분리하고, multi-CTA 환경에서의 coalesce 유틸리티를 수정한 분석.#Triton#MLIR#CGA#Multi-CTA#Encoding#Compiler2025년 12월 18일댓글 수 로딩 중
[Triton] ConSan에서 barrier 다중 도착 시 false positive deadlock 감지 수정barrier_expect를 arrive로 모델링하여 여러 TMA copy가 같은 barrier를 공유할 때 발생하는 오탐 deadlock 해결#Triton#ConSan#Concurrency Sanitizer#Bug Fix#TMA2025년 12월 19일댓글 수 로딩 중
[Triton] Gluon 검증 로직을 C++ verifier로 이동 — 차원 축소 로드 지원Python assert 기반 검증을 C++ verifier로 이동하여 dimension-reducing load를 올바르게 지원한다#Triton#Gluon#MLIR#Verifier#Refactoring2025년 12월 18일댓글 수 로딩 중
[Triton] Frontend에서 scaled batched matrix multiply 지원dot_scaled의 shape 검증을 마지막 2차원 기준으로 변경하여 BMM 연산을 올바르게 처리#Triton#Frontend#BMM#MXFP#Bug Fix2025년 12월 18일댓글 수 로딩 중
[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOpsscf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정#Triton#AMD#MLIR#Bug Fix#Compiler2025년 12월 18일댓글 수 로딩 중
[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 18일댓글 수 로딩 중
[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.#Triton#NVIDIA#WGMMA#Pipeline#Optimization2025년 12월 17일댓글 수 로딩 중
[Triton] gfx1250에 async_copy_local_to_global 추가Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가#Triton#AMD#gfx1250#Gluon#Async Copy2025년 12월 16일댓글 수 로딩 중
[triton] Async 연산에 명시적 의미론(Semantics) 문서 추가Triton의 async_copy, async_commit_group, async_wait 연산에 명시적인 의미론 설명과 동기화 요구사항을 문서화한 PR 분석.#Triton#AsyncOps#Documentation#MLIR#Semantics#CopyAsync2025년 12월 16일댓글 수 로딩 중
[Ray Serve] 라우터 큐 대기 시간 메트릭 추가요청이 큐에서 레플리카에 할당되기까지의 대기 시간을 측정하는 메트릭 도입#Ray#Performance2025년 12월 16일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.#Triton#AMD#GPU#Optimization#FlashAttention2025년 12월 15일댓글 수 로딩 중
[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.#Ray#Ray Data#Batching#ray.get#iter_batches#Performance2025년 12월 15일댓글 수 로딩 중