[Open WebUI] 텔레메트리에서 효율적인 COUNT 쿼리로 커넥션 풀 고갈 방지전체 테이블 로드 대신 COUNT(*) 쿼리를 사용하여 DB 연결 풀 고갈 해결#Open WebUI#Performance2026년 1월 10일댓글 수 로딩 중
[pytorch] Benchmark: Inductor 벤치마크에서 modded_nanogpt 모델 Skip 처리TorchInductor 벤치마크에서 정상 동작하지 않는 modded_nanogpt 모델을 skip 리스트에 추가하여 CI 안정성을 개선한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#NanoGPT2026년 1월 9일댓글 수 로딩 중
[pytorch] Build: vendored_templates 디렉토리에 __init__.py 자동 생성으로 패키지 인식 문제 해결PyTorch setup.py에서 CuTeDSL Grouped MM 템플릿의 vendored_templates 디렉토리에 __init__.py를 자동 생성하여 find_packages가 서브모듈로 인식하도록 수정한 사례를 분석합니다.#PyTorch#Build System#CUTLASS#Inductor#Python Packaging2026년 1월 9일댓글 수 로딩 중
[Triton] 소규모 async_cp를 위한 최적 레이아웃 선택작은 텐서의 async copy 시 coalesced encoding을 독립적으로 선택하여 불필요한 convert_layout 제거#Triton#MLIR#Compiler Optimization#GPU#Async Copy2026년 1월 9일댓글 수 로딩 중
[triton] AMD ReorderInstructions에서 no-op sinkDotConversion 최적화 제거ConvertLayout이 이미 local_load로 대체된 후 실행되어 효과가 없는 sinkDotConversion 최적화를 제거하여 코드 복잡성을 줄인 PR을 분석합니다.#Triton#AMD#Refactoring#Dead Code#MLIR2026년 1월 9일댓글 수 로딩 중
[vllm] MORI KV Connector - ROCm 기반 Prefill-Decode DisaggregationROCm 플랫폼에서 MORI 라이브러리를 활용한 KV cache 전송 커넥터로 PD disaggregation 지원#vllm#Performance2026년 1월 9일댓글 수 로딩 중
[PyTorch] MPS mul 성능 회귀 수정Apple MPS 백엔드의 broadcast/scalar 연산에 전용 Metal 커널을 추가하여 성능 회귀를 수정한다#PyTorch#MPS#Metal#Performance2026년 1월 9일댓글 수 로딩 중
[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다#Triton#AMD#Gluon#L2 Cache#Prefetch#GPU Optimization2026년 1월 8일댓글 수 로딩 중
[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원vLLM에 gRPC 서버 엔트리포인트를 추가하여 REST API 대비 낮은 latency와 높은 throughput의 통신 제공#vllm#Performance2026년 1월 8일댓글 수 로딩 중
[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.#Triton#Kernel#SwiGLU#PTX#Optimization2026년 1월 8일댓글 수 로딩 중
[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.#Ray#Python#Performance#Benchmark#Training2026년 1월 8일댓글 수 로딩 중
[Triton] Proton GlobalScratchAllocOp 폐기 — TritonGPU 공용 op으로 통합Proton 전용 GlobalScratchAllocOp을 TritonGPU의 공용 op으로 교체하고, backend 속성으로 할당 정책을 구분한다#Triton#Proton#MLIR#Refactoring#Op Deprecation2026년 1월 7일댓글 수 로딩 중
[triton] Gluon TMA Op Verifier 강화 및 Illegal Instruction Sanitize 모드 추가Triton Gluon의 TMA 연산 verifier를 강화하고, descriptor와 tensor 간의 element 수 일치 검증, 그리고 illegal instruction sanitize 모드를 추가한 PR 분석.#Triton#Gluon#TMA#Verifier#Sanitizer#MLIR2026년 1월 7일댓글 수 로딩 중
[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정Warp specialization에서 TMA와 일반 로드가 혼합될 때 MMA의 self-latency를 올바르게 설정하고 warp-specialized MMA를 lowerMMA에서 처리하도록 수정한 PR을 분석합니다.#Triton#NVIDIA#AutoWS#TMA#Pipeline2026년 1월 7일댓글 수 로딩 중
[Loki] 새 쿼리 엔진 메모리 할당 최적화: 객체 수 32% 감소Loki의 새 쿼리 엔진에서 Arrow 빌더 사전 할당, 문자열 캐싱, 슬라이스 재사용 등으로 메모리 할당 객체 수를 32% 줄인 PR 분석.#Grafana Loki#Go#Memory Allocation#Query Engine#Apache Arrow#Performance2026년 1월 7일댓글 수 로딩 중
[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화#Triton#NVIDIA#Performance#WGMMA#Pipelining2026년 1월 7일댓글 수 로딩 중
[Triton] WarpSpecializePartitionsOp에 명시적 캡처 전달 — IR 구조 정합성 개선WarpSpecializeOp의 explicit capture를 실제 소비하는 WarpSpecializePartitionsOp으로 이동하여 IR 구조를 정합적으로 만든다#Triton#MLIR#Warp Specialization#IR Design#Compiler2026년 1월 7일댓글 수 로딩 중
[pydantic-ai] DBOS 테스트용 인메모리 SQLite 되돌리기: 파일 기반 DB 복원인메모리 SQLite로 전환했던 DBOS 테스트를 파일 기반으로 되돌리고, 자동 정리 fixture를 추가한 사례를 분석합니다.#pydantic-ai#DBOS#SQLite#Testing#Revert2026년 1월 6일댓글 수 로딩 중
[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다#PyTorch#FlexAttention#FP8#Quantization2026년 1월 5일댓글 수 로딩 중
[triton] Proton의 Runtime과 Metric 상관관계 단순화로 오버헤드 감소Proton 프로파일러의 Data/Metric 인터페이스를 재설계하여 이중 잠금과 불필요한 조회를 제거하고 프로파일링 오버헤드를 줄인 사례를 분석합니다.#Triton#Proton#Profiling#Performance#Refactoring2026년 1월 4일댓글 수 로딩 중