PR Analysis

[pytorch] CI: fbgemm/torchrec 핀 버전 업데이트 및 빌드 로직 리팩토링

PyTorch CI에서 fbgemm과 torchrec의 핀 버전을 업데이트하고, fbgemm 빌드 로직을 install_fbgemm 함수로 분리하여 CUDA/ROCm 양쪽에서 재사용 가능하게 리팩토링한 사례를 분석합니다.

#PyTorch #CI #fbgemm #torchrec #ROCm #Build System #Refactoring

2026년 1월 11일

[Open WebUI] 메모리 리셋 API에서 커넥션 풀 고갈을 방지하는 치명적 버그 수정

POST /reset 엔드포인트가 100개 이상의 병렬 임베딩 호출 동안 DB 커넥션을 점유하여 전체 앱이 마비되던 문제를 수정한 분석.

#Open WebUI #Python #SQLAlchemy #Connection Pool #asyncio #Performance

2026년 1월 11일

[Open WebUI] 텔레메트리에서 효율적인 COUNT 쿼리로 커넥션 풀 고갈 방지

전체 테이블 로드 대신 COUNT(*) 쿼리를 사용하여 DB 연결 풀 고갈 해결

#Open WebUI #Performance

2026년 1월 10일

[pytorch] Benchmark: Inductor 벤치마크에서 modded_nanogpt 모델 Skip 처리

TorchInductor 벤치마크에서 정상 동작하지 않는 modded_nanogpt 모델을 skip 리스트에 추가하여 CI 안정성을 개선한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #NanoGPT

2026년 1월 9일

[pytorch] Build: vendored_templates 디렉토리에 init.py 자동 생성으로 패키지 인식 문제 해결

PyTorch setup.py에서 CuTeDSL Grouped MM 템플릿의 vendored_templates 디렉토리에 __init__.py를 자동 생성하여 find_packages가 서브모듈로 인식하도록 수정한 사례를 분석합니다.

#PyTorch #Build System #CUTLASS #Inductor #Python Packaging

2026년 1월 9일

[Triton] 소규모 async_cp를 위한 최적 레이아웃 선택

작은 텐서의 async copy 시 coalesced encoding을 독립적으로 선택하여 불필요한 convert_layout 제거

#Triton #MLIR #Compiler Optimization #GPU #Async Copy

2026년 1월 9일

[triton] AMD ReorderInstructions에서 no-op sinkDotConversion 최적화 제거

ConvertLayout이 이미 local_load로 대체된 후 실행되어 효과가 없는 sinkDotConversion 최적화를 제거하여 코드 복잡성을 줄인 PR을 분석합니다.

#Triton #AMD #Refactoring #Dead Code #MLIR

2026년 1월 9일

[vllm] MORI KV Connector - ROCm 기반 Prefill-Decode Disaggregation

ROCm 플랫폼에서 MORI 라이브러리를 활용한 KV cache 전송 커넥터로 PD disaggregation 지원

#vllm #Performance

2026년 1월 9일

[PyTorch] MPS mul 성능 회귀 수정

Apple MPS 백엔드의 broadcast/scalar 연산에 전용 Metal 커널을 추가하여 성능 회귀를 수정한다

#PyTorch #MPS #Metal #Performance

2026년 1월 9일

[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어

AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다

#Triton #AMD #Gluon #L2 Cache #Prefetch #GPU Optimization

2026년 1월 8일

[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원

vLLM에 gRPC 서버 엔트리포인트를 추가하여 REST API 대비 낮은 latency와 높은 throughput의 통신 제공

#vllm #Performance

2026년 1월 8일

[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선

Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.

#Triton #Kernel #SwiGLU #PTX #Optimization

2026년 1월 8일

[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정

iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.

#Ray #Python #Performance #Benchmark #Training

2026년 1월 8일

[Triton] Proton GlobalScratchAllocOp 폐기 — TritonGPU 공용 op으로 통합

Proton 전용 GlobalScratchAllocOp을 TritonGPU의 공용 op으로 교체하고, backend 속성으로 할당 정책을 구분한다

#Triton #Proton #MLIR #Refactoring #Op Deprecation

2026년 1월 7일

[triton] Gluon TMA Op Verifier 강화 및 Illegal Instruction Sanitize 모드 추가

Triton Gluon의 TMA 연산 verifier를 강화하고, descriptor와 tensor 간의 element 수 일치 검증, 그리고 illegal instruction sanitize 모드를 추가한 PR 분석.

#Triton #Gluon #TMA #Verifier #Sanitizer #MLIR

2026년 1월 7일

[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정

Warp specialization에서 TMA와 일반 로드가 혼합될 때 MMA의 self-latency를 올바르게 설정하고 warp-specialized MMA를 lowerMMA에서 처리하도록 수정한 PR을 분석합니다.

#Triton #NVIDIA #AutoWS #TMA #Pipeline

2026년 1월 7일

[Loki] 새 쿼리 엔진 메모리 할당 최적화: 객체 수 32% 감소

Loki의 새 쿼리 엔진에서 Arrow 빌더 사전 할당, 문자열 캐싱, 슬라이스 재사용 등으로 메모리 할당 객체 수를 32% 줄인 PR 분석.

#Grafana Loki #Go #Memory Allocation #Query Engine #Apache Arrow #Performance

2026년 1월 7일

[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상

K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화

#Triton #NVIDIA #Performance #WGMMA #Pipelining

2026년 1월 7일

[Triton] WarpSpecializePartitionsOp에 명시적 캡처 전달 — IR 구조 정합성 개선

WarpSpecializeOp의 explicit capture를 실제 소비하는 WarpSpecializePartitionsOp으로 이동하여 IR 구조를 정합적으로 만든다

#Triton #MLIR #Warp Specialization #IR Design #Compiler

2026년 1월 7일

[pydantic-ai] DBOS 테스트용 인메모리 SQLite 되돌리기: 파일 기반 DB 복원

인메모리 SQLite로 전환했던 DBOS 테스트를 파일 기반으로 되돌리고, 자동 정리 fixture를 추가한 사례를 분석합니다.

#pydantic-ai #DBOS #SQLite #Testing #Revert

2026년 1월 6일