PR Analysis

[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가

FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다

#PyTorch #FlexAttention #FP8 #Quantization

2026년 1월 5일

[triton] Proton의 Runtime과 Metric 상관관계 단순화로 오버헤드 감소

Proton 프로파일러의 Data/Metric 인터페이스를 재설계하여 이중 잠금과 불필요한 조회를 제거하고 프로파일링 오버헤드를 줄인 사례를 분석합니다.

#Triton #Proton #Profiling #Performance #Refactoring

2026년 1월 4일

[cpython] gh-124951: base64 인코딩/디코딩 2~3배 속도 향상 — CPU 파이프라이닝 최적화

lookup table 정렬과 loop-carried dependency 제거로 base64 처리 속도를 2~3배 개선

#Python #CPython #Performance #base64 #C

2026년 1월 2일

[Ray Data] AutoscalingCoordinator에서 여러 데이터셋 실행 시 리소스 이중 할당 방지

request_remaining=True인 요청자가 여러 개일 때 잔여 리소스를 모두에게 중복 할당하던 문제를 균등 분배로 수정한 분석.

#Ray #Python #Bug Fix #Autoscaling #Resource Management

2025년 12월 31일

[Triton] AMD TDM L2 Prefetch 백엔드 지원 추가

AMD GPU의 TDM L2 프리페치 하드웨어 기능에 대한 MLIR op 정의와 LLVM lowering을 구현한다

#Triton #AMD #L2 Cache #Prefetch #MLIR #LLVM Lowering

2025년 12월 31일

[Open WebUI] mammoth 라이브러리 동적 로딩으로 페이지 초기 로드 301KB 절감

DOCX 파일 처리를 위한 mammoth 라이브러리를 정적 import에서 동적 import로 변경하여, 초기 번들 크기를 301KB 줄인 PR을 분석합니다.

#Open WebUI #Performance #Bundle Size #Dynamic Import #TypeScript

2025년 12월 30일

[triton] AMD ReorderInstructions에서 효과 없는 sinkSecondLoad 최적화 제거

제한적 케이스에서만 트리거되고 성능 영향이 없는 sinkSecondLoad 최적화를 제거하여 ReorderInstructions를 단순화한 PR을 분석합니다.

#Triton #AMD #Refactoring #Dead Code #Cleanup

2025년 12월 30일

[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원

warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.

#Triton #AMD #WMMA #LinearLayout #GPU Layout #gfx1250

2025년 12월 29일

[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거

async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상

#vllm #Performance

2025년 12월 29일

[Open WebUI] xlsx 라이브러리 동적 로딩으로 번들 868KB 감소

정적 import를 dynamic import로 전환하여 초기 페이지 로딩 속도 개선

#Open WebUI #Bundle Size #Dynamic Import #Performance

2025년 12월 28일

[Open WebUI] YAML 라이브러리 동적 로딩으로 번들 130KB 감소

정적 import 대신 동적 import()로 yaml 라이브러리를 필요 시에만 로드하여 초기 번들 크기 절감.

#Open WebUI #TypeScript #Performance #Bundle Size #Code Splitting

2025년 12월 28일

[pydantic-ai] 테스트 스위트에서 불필요한 asyncio.sleep 제거

Google 파일 검색, OpenAI 응답 모델 등 다수 테스트에서 불필요한 asyncio.sleep과 VCR 마커를 제거하여 테스트 속도를 개선한 사례를 분석합니다.

#pydantic-ai #Testing #Performance #asyncio #Cleanup

2025년 12월 28일

[pydantic-ai] 스트리밍에서 중복 도구 호출 방지 및 결과 캐싱 추가

partial_output=False일 때 stream_output/stream_text/get_output의 반복 호출 시 중복 검증과 도구 호출을 방지하기 위한 결과 캐싱을 추가한 사례를 분석합니다.

#pydantic-ai #Streaming #Caching #Bug Fix #Output Validation

2025년 12월 27일

[pytest] actions/cache v4에서 v5로 업그레이드

GitHub Actions 워크플로우에서 actions/cache를 v4에서 v5로 메이저 업그레이드

#Python #pytest #CI/CD #GitHub Actions #Dependencies

2025년 12월 27일

[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정

float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지

#Triton #AMD #Bug Fix #Atomic Operations #LLVM

2025년 12월 27일

[Triton] LLVM Debug Information에서 커널 인자 누락 수정

Triton FuncOp에서 LLVM IR 변환 시 포인터 타입의 pointee 정보가 유실되어 디버그 정보에 커널 인자가 누락되는 버그를 수정

#Triton #LLVM #Debug Info #Bug Fix

2025년 12월 25일

[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정

max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정

#vllm #Performance

2025년 12월 24일

[Triton] ext slice rematerialization 견고성 개선 — 실패 시 원본 보존

레이아웃 변환 제거 패스에서 ext backward slice 탐색 실패 시 원본 데이터가 오염되는 버그를 수정한다

#Triton #MLIR #Compiler Optimization #Layout Conversion #Bug Fix

2025년 12월 24일

[Triton] Proton 프로파일러 tensor descriptor 및 two-CTA 모드 테스트 추가

Proton 프로파일러에 tensor descriptor와 two-CTA 모드 커널에 대한 테스트를 추가하여 프로파일링 범위를 확장한다

#Triton #Proton #Testing #Tensor Descriptor #Two-CTA

2025년 12월 23일

[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상

gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다

#Triton #AMD #AsyncCopy #GPU Pipeline #Performance

2025년 12월 23일