PR Analysis

[Ray Data] 논리적 최적화 규칙에서 in-place 변형을 제거하여 불변성 준비

limit_pushdown, predicate_pushdown, inherit_batch_format 규칙이 DAG 노드를 직접 수정하던 패턴을 복사-재구축 방식으로 전환한 리팩터링 분석.

#Ray #Python #Refactoring #DAG #Query Optimization

2026년 1월 26일

[Triton] AMD PrepareIfCombining 패스 추가 — scf.if 병합 최적화

동일 조건의 인접 scf.if 연산 사이 명령어를 이동시켜 canonicalizer가 if를 병합하도록 지원

#Triton #AMD #MLIR #Compiler Optimization #Control Flow

2026년 1월 24일

[Triton] AMD TDM 기능 활성화 및 ConvertToTensorOps 패스 추가

TDM(Tensor Descriptor Memory) 관련 기능 활성화와 ConvertToTensorOps 변환 패스 추가

#Triton #AMD #TDM #Tensor Descriptor #Compiler Pass

2026년 1월 23일

[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상

Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.

#Triton #NVIDIA #Membar #Optimization #MoE

2026년 1월 22일

[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기

Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.

#Triton #GPU #Optimization #HPC #Matmul

2026년 1월 22일

[Loki] shuffle shard 캐시 크기 설정을 experimental로 표시

Grafana Loki의 shuffle-shard-cache-size 설정 플래그를 experimental로 표시하여, 향후 변경 가능성을 사용자에게 명확히 전달하는 PR을 분석합니다.

#Grafana Loki #Configuration #Experimental #Documentation #Cache

2026년 1월 22일

[triton] AMD membarFilter에 bufferID 고려 추가

AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.

#Triton #AMD GPU #Memory Barrier #Shared Memory #Optimization

2026년 1월 22일

[Triton] AxisInfo의 divisibility 초기화 로직 문서화 개선

MulIOp에서 contiguity > 1일 때 divisibility를 1로 리셋하는 이유를 명확히 문서화

#Triton #Documentation #MLIR #AxisInfo #Compiler Analysis

2026년 1월 22일

[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거

Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.

#Triton #CUDA #HIP #Runtime #Performance

2026년 1월 21일

[Loki] Thor 쿼리 엔진 메모리 최적화 Part 3: 불필요한 스키마 재생성 제거

Arrow 스키마 재생성과 필드 복사를 제거하여 쿼리 엔진의 메모리 할당을 추가 절감한 분석.

#Loki #Go #Performance #Memory Allocation #Apache Arrow

2026년 1월 21일

[Loki] Partition Ring 셔플 샤딩 캐시 크기를 설정 플래그로 추출

하드코딩된 셔플 샤딩 캐시 크기를 런타임 설정 플래그로 추출하여 테넌트 수에 따라 조정 가능하게 만든 분석.

#Loki #Go #Performance #Configuration #Caching

2026년 1월 21일

[Loki] Thor 쿼리 엔진 메모리 최적화 Part 2: 식별자 캐싱과 빌더 Reserve

FQN 파싱 결과를 캐싱하고 Arrow 빌더에 Reserve를 적용하여 실행 시간 7%, 메모리 할당 12% 절감한 분석.

#Loki #Go #Performance #Memory Allocation #Caching

2026년 1월 21일

[Triton] Proton 프로파일러에서 불필요한 lock 추가 제거

PhaseStore를 분리하고 atomic 연산을 활용하여 프로파일링 오버헤드를 줄이는 lock 최적화

#Triton #Proton #Profiler #Performance #Concurrency

2026년 1월 21일

[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선

Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.

#Triton #Compiler #Optimization #LLVM #Performance

2026년 1월 20일

[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상

Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.

#Triton #GPU #CUDA #Optimization #Matmul

2026년 1월 20일

[Loki] 자식 할당자가 반환한 메모리의 조기 해제 방지

Grafana Loki의 메모리 할당자에서 자식 할당자가 부모에게 반환한 메모리가 부모의 Reset 시 Go 런타임으로 조기 해제되는 버그를 3상태 비트맵 도입으로 수정한 PR을 분석합니다.

#Grafana Loki #Memory Management #Go #Allocator #Bug Fix

2026년 1월 20일

[Loki] 부모-자식 메모리 할당자 도입으로 계층적 메모리 수명 관리

쿼리 엔진의 메모리 할당자에 부모-자식 관계를 추가하여 할당/해제 수명을 계층적으로 관리하는 최적화 분석.

#Loki #Go #Performance #Memory Management #Allocator

2026년 1월 20일

[Grafana Loki] dataobj pageReader의 메모리 할당을 Reclaim과 Bitmap 직접 전달로 최적화

pageReader.read()에서 Reset 대신 Reclaim을 사용하고, presence 비트맵을 직접 전달하여 불필요한 할당을 줄인 dataobj 읽기 경로 최적화 분석.

#Grafana Loki #Go #Performance #Memory Allocation #Data Object

2026년 1월 20일

[Loki] Bitmap 디코더 최적화: 처리량 93.5% 개선

Loki dataobj의 bitmap 디코더를 boolean 전용으로 특수화하고 memory.Bitmap으로 전환하여 처리량을 93.5% 개선한 PR 분석.

#Grafana Loki #Go #Bitmap #Decoder #Performance #Data Object

2026년 1월 19일

[vllm] Draft Model 기반 Speculative Decoding 지원

별도의 소형 draft 모델을 활용한 speculative decoding을 vLLM V1 엔진에 공식 통합

#vllm #Performance

2026년 1월 19일