[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선#vllm#Performance2025년 11월 21일댓글 수 로딩 중
[Triton] clamp 최적화를 scalar에도 적용 — fmin.xorsign.abs 활용Hopper 이상에서 clamp(x, -limit, limit) 패턴을 scalar 값에도 min.xorsign.abs로 최적화#Triton#NVIDIA#Compiler Optimization#PTX#Scalar2025년 11월 21일댓글 수 로딩 중
[triton] AMD 비동기 복사에서 block 차원 중복 복사 허용AMD GPU의 async_copy_global_to_local에서 block 차원의 redundant copy를 허용하여, multi-CTA 환경에서 각 CTA가 자신의 shared memory에 데이터를 올바르게 복사하도록 수정한 PR을 분석합니다.#Triton#AMD GPU#Async Copy#Multi-CTA2025년 11월 20일댓글 수 로딩 중
[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.#Ray#Python#Performance#Prefetch#Latency#Data Pipeline2025년 11월 20일댓글 수 로딩 중
[Ray] Ray 대규모 리소스 뷰 동기화 -- 메시지 배칭으로 개선RaySyncer의 gRPC 스트리밍에 메시지 배칭을 도입해 대규모 클러스터의 리소스 동기화 효율을 높이다#Ray#Distributed Systems#gRPC#Performance2025년 11월 20일댓글 수 로딩 중
[triton] tl.cat 연산을 permute+reshape+join으로 재구현하여 결정적(deterministic) 동작 보장Triton의 tl.cat 연산에서 CatOp을 제거하고 permute, reshape, join 조합으로 대체하여 결정적 결과를 보장하는 변경 분석.#Triton#Compiler#MLIR#Tensor Operations#Determinism2025년 11월 19일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.229: COCO Segmentation 평가 300% 가속화 분석외부 라이브러리 의존성을 제거하고 PyTorch 기반의 최적화된 RLE 인코딩 및 마스크 스케일링을 도입하여 성능을 3배 향상시킨 사례를 분석합니다.#Ultralytics#YOLO#Optimization#PyTorch#ComputerVision2025년 11월 18일댓글 수 로딩 중
[Triton] AMD CI에 pip 캐시 디렉토리 도입 — 네트워크 장애 대응AMD GPU CI 환경에서 pip 캐시 디렉토리를 사용하여 네트워크 지연에 의한 빌드 실패를 방지한다#Triton#AMD#CI/CD#GitHub Actions#DevOps2025년 11월 19일댓글 수 로딩 중
[triton] AMD GPU에서 Block Scaled Matmul 지원 추가Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.#Triton#AMD#CDNA4#MatMul#MXFP#GPU2025년 11월 19일댓글 수 로딩 중
[Loki] 인메모리 레이트 트래커로 UpdateRates RPC 구현Grafana Loki의 인제스트 리미터에서 UpdateRates RPC를 순환 버퍼 기반 인메모리 레이트 트래커로 구현하여, 스트림별 속도 제한의 기반을 마련한 PR을 분석합니다.#Grafana Loki#Rate Limiting#Go#In-Memory#Circular Buffer2025년 11월 19일댓글 수 로딩 중
[Triton] AMD gfx1250 tt.LoadOp에 multicast 지원 추가cluster_load를 사용하여 여러 CTA에 동시 레지스터 로드를 수행하는 multicast 기능 구현#Triton#AMD#gfx1250#Multicast#Load2025년 11월 18일댓글 수 로딩 중
[pydantic-ai] CachePoint에 TTL 옵션 추가 — Anthropic 1시간 캐시 지원Anthropic prompt caching의 TTL을 5분과 1시간 중 선택할 수 있도록 CachePoint와 모델 설정을 확장#Python#Pydantic AI#Anthropic#Feature#Caching2025년 11월 18일댓글 수 로딩 중
[Triton] Pipeliner에서 cp_async의 alignment 정보 손실 수정async_copy Op에 optional contiguity 정보를 추가하여 컴파일러 변환 후에도 정렬 정보 유지#Triton#Compiler#Pipeliner#Async Copy#Bug Fix2025년 11월 18일댓글 수 로딩 중
[Triton] JIT 함수를 커널에 안전하게 전달하는 테스트 추가JIT 함수(higher-order function)를 constexpr 인자로 커널에 전달하고 캐시 키가 올바르게 갱신되는지 검증#Triton#Compiler2025년 11월 18일댓글 수 로딩 중
[ultralytics] COCO Segmentation 검증 300% 속도 향상 — RLE 인코딩 벡터화ThreadPool + faster_coco_eval 의존성을 PyTorch 벡터화 RLE로 교체하여 검증 속도 3배 향상#Python#PyTorch#YOLO#Performance#Segmentation2025년 11월 18일댓글 수 로딩 중
[Loki] fsGroupChangePolicy=OnRootMismatch로 Pod 시작 속도 향상Grafana Loki Helm 차트에서 Pod 시작 시 불필요한 chown 재귀 실행을 방지하기 위해 fsGroupChangePolicy를 OnRootMismatch로 설정하여 Pod 시작 시간을 단축한 최적화를 분석합니다.#Grafana Loki#Kubernetes#Helm#Performance#Pod Startup2025년 11월 17일댓글 수 로딩 중
[Triton] gfx1250에서 async_copy multicast 지원AMD gfx1250 타겟의 async_copy_global_to_local에 cluster load 기반 multicast를 추가하여 CTA간 데이터 공유 지원#Triton#AMD#Multicast#Async Copy#gfx12502025년 11월 16일댓글 수 로딩 중
[vllm] MP Executor로 멀티 노드 분산 추론 지원MultiprocExecutor를 확장하여 멀티 노드 환경에서의 텐서/파이프라인 병렬 추론을 V1 엔진에서 지원#vllm#Performance2025년 11월 16일댓글 수 로딩 중
[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.#Triton#AMD#LLVM#Scheduler#Flash Attention#Performance2025년 11월 14일댓글 수 로딩 중
[Triton] TRITON_INTERPRET 모드에서 언어 패치 자동 정리인터프리터 모드가 triton.language를 패치한 후 자동으로 원래 상태로 복원하도록 개선#Triton#Interpreter#Python#Refactoring2025년 11월 14일댓글 수 로딩 중