PR Analysis

[Loki] 대소문자 무시 정규식을 바이너리 연산자로 최적화

정규식 엔진 대신 바이트 단위 대소문자 무시 비교 연산자를 도입하여 case-insensitive 매칭 성능을 대폭 개선한 분석.

#Loki #Go #Performance #Regex #Query Engine

2026년 2월 5일

[Triton] AMD GFX9에서 AsyncCopy shared layout order 수정

getElementsPerThread 대신 getContigPerThread를 사용하고 vecSize를 하드웨어 지원 범위로 clamp하여 coalesced direct-to-LDS 쓰기 보장

#Triton #AMD #GFX9 #Async Copy #Bug Fix

2026년 2월 5일

[pydantic-ai] Bedrock CachePoint가 여러 trailing 문서 사이에 잘못 배치되는 버그 수정

AWS Bedrock에서 복수의 문서/비디오가 연속될 때 CachePoint가 마지막 문서 앞이 아닌 전체 그룹 앞에 올바르게 배치되도록 수정한 사례를 분석합니다.

#pydantic-ai #AWS Bedrock #Caching #Bug Fix #Refactoring

2026년 2월 5일

[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크

Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합

#vllm #Performance

2026년 2월 5일

[triton] ConSan 컴파일 타임 19분에서 34초로 단축 - 대규모 최적화

Triton Concurrency Sanitizer의 컴파일 시간을 33배 개선한 대규모 PR을 분석합니다. IR 크기 축소, warp-local layout, 헬퍼 함수 중복제거 등 다양한 최적화가 포함됩니다.

#Triton #ConSan #Compile Time #MLIR #Optimization

2026년 2월 5일

[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현

AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.

#Triton #AMD #GFX1250 #Stream-K #GPU-Optimization

2026년 2월 4일

[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가

#Triton #AMD #MLIR #Shared Memory #Memory Optimization

2026년 2월 4일

[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정

MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.

#Ray #Python #Performance #Operator Fusion #Data Pipeline

2026년 2월 4일

[Ray Data] 중복 batch_format 유효성 검사 제거

Ray Data의 map_batches에서 _apply_batch_format 내부에서 이미 수행하는 유효성 검사를 호출부에서 중복으로 수행하던 데드 코드를 제거한 PR을 분석합니다.

#Ray #Ray Data #Code Cleanup #Python #Dead Code

2026년 2월 4일

[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원

TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원

#Triton #AMD #TDM #Async Wait #Compiler

2026년 2월 2일

[Loki] 인덱스 빌더에서 오브젝트 다운로드 시 슬라이스 사전 할당으로 메모리 효율화

io.ReadAll 대신 오브젝트 크기 기반 사전 할당으로 인덱스 빌드 시 불필요한 메모리 재할당을 제거한 분석.

#Loki #Go #Performance #Memory Allocation #Object Storage

2026년 2월 2일

[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소

#Triton #AMD #MLIR #Shared Memory #Architecture

2026년 2월 2일

[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체

여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.

#Triton #AMD #Refactoring #Compiler #Pipeline

2026년 2월 1일

[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가

AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.

#Triton #AMD #gfx1250 #Gluon #TDM #Gather

2026년 2월 1일

[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화

AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법

#Triton #AMD #GPU #LLVM #Optimization

2026년 1월 30일

[triton] Reduce 커널에 Unpadded Batch Size 핸들링 추가

Triton Kernels의 reduce 커널에 unpadded batch size를 지원하여 패딩된 배치에서 불필요한 연산을 건너뛰도록 개선한 PR 분석.

#Triton #TritonKernels #Reduce #Padding #BatchSize #Performance

2026년 1월 30일

[uvloop] uvloop의 SSL 성능 최적화: SSLWantReadError 비용 줄이기

SSLWantReadError 예외 발생을 최소화하여 SSL 읽기 성능을 개선한 uvloop의 최적화 사례를 분석합니다.

#uvloop #Python #SSL #Performance #Optimization

2026년 1월 30일

[Open WebUI] 이메일 인증 시 이중 조회를 단일 JOIN으로 교체

authenticate_user_by_email에서 Auth 테이블과 User 테이블을 각각 조회하던 것을 단일 JOIN 쿼리로 통합한 PR 분석.

#Open WebUI #Database #SQLAlchemy #JOIN #Query Optimization

2026년 1월 30일

[pytorch] PyTorch CUDA 메모리 스냅샷 최적화 — 트레이스 선택적 포함

include_traces 옵션으로 CUDA 메모리 스냅샷의 트레이스 수집을 건너뛰어 성능을 대폭 개선한다

#PyTorch #CUDA Memory #Performance #Memory Profiling

2026년 1월 30일

[uvloop] uvloop의 SSL 성능 최적화: Python Vectorcall 우회하기

Python의 vectorcall 인터페이스 대신 C 레벨의 직접 호출과 인라인화를 통해 SSLProtocol 성능을 개선한 사례 분석.

#Python #uvloop #Performance #Optimization #SSL

2026년 1월 30일