[Triton] AMD TDM 기능 활성화 및 ConvertToTensorOps 패스 추가TDM(Tensor Descriptor Memory) 관련 기능 활성화와 ConvertToTensorOps 변환 패스 추가#Triton#AMD#TDM#Tensor Descriptor#Compiler Pass2026년 1월 23일댓글 수 로딩 중
[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.#Triton#NVIDIA#Membar#Optimization#MoE2026년 1월 22일댓글 수 로딩 중
[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.#Triton#GPU#Optimization#HPC#Matmul2026년 1월 22일댓글 수 로딩 중
[Loki] shuffle shard 캐시 크기 설정을 experimental로 표시Grafana Loki의 shuffle-shard-cache-size 설정 플래그를 experimental로 표시하여, 향후 변경 가능성을 사용자에게 명확히 전달하는 PR을 분석합니다.#Grafana Loki#Configuration#Experimental#Documentation#Cache2026년 1월 22일댓글 수 로딩 중
[triton] AMD membarFilter에 bufferID 고려 추가AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.#Triton#AMD GPU#Memory Barrier#Shared Memory#Optimization2026년 1월 22일댓글 수 로딩 중
[Triton] AxisInfo의 divisibility 초기화 로직 문서화 개선MulIOp에서 contiguity > 1일 때 divisibility를 1로 리셋하는 이유를 명확히 문서화#Triton#Documentation#MLIR#AxisInfo#Compiler Analysis2026년 1월 22일댓글 수 로딩 중
[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.#Triton#CUDA#HIP#Runtime#Performance2026년 1월 21일댓글 수 로딩 중
[Loki] Thor 쿼리 엔진 메모리 최적화 Part 3: 불필요한 스키마 재생성 제거Arrow 스키마 재생성과 필드 복사를 제거하여 쿼리 엔진의 메모리 할당을 추가 절감한 분석.#Loki#Go#Performance#Memory Allocation#Apache Arrow2026년 1월 21일댓글 수 로딩 중
[Loki] Partition Ring 셔플 샤딩 캐시 크기를 설정 플래그로 추출하드코딩된 셔플 샤딩 캐시 크기를 런타임 설정 플래그로 추출하여 테넌트 수에 따라 조정 가능하게 만든 분석.#Loki#Go#Performance#Configuration#Caching2026년 1월 21일댓글 수 로딩 중
[Loki] Thor 쿼리 엔진 메모리 최적화 Part 2: 식별자 캐싱과 빌더 ReserveFQN 파싱 결과를 캐싱하고 Arrow 빌더에 Reserve를 적용하여 실행 시간 7%, 메모리 할당 12% 절감한 분석.#Loki#Go#Performance#Memory Allocation#Caching2026년 1월 21일댓글 수 로딩 중
[Triton] Proton 프로파일러에서 불필요한 lock 추가 제거PhaseStore를 분리하고 atomic 연산을 활용하여 프로파일링 오버헤드를 줄이는 lock 최적화#Triton#Proton#Profiler#Performance#Concurrency2026년 1월 21일댓글 수 로딩 중
[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.#Triton#Compiler#Optimization#LLVM#Performance2026년 1월 20일댓글 수 로딩 중
[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.#Triton#GPU#CUDA#Optimization#Matmul2026년 1월 20일댓글 수 로딩 중
[Loki] 자식 할당자가 반환한 메모리의 조기 해제 방지Grafana Loki의 메모리 할당자에서 자식 할당자가 부모에게 반환한 메모리가 부모의 Reset 시 Go 런타임으로 조기 해제되는 버그를 3상태 비트맵 도입으로 수정한 PR을 분석합니다.#Grafana Loki#Memory Management#Go#Allocator#Bug Fix2026년 1월 20일댓글 수 로딩 중
[Loki] 부모-자식 메모리 할당자 도입으로 계층적 메모리 수명 관리쿼리 엔진의 메모리 할당자에 부모-자식 관계를 추가하여 할당/해제 수명을 계층적으로 관리하는 최적화 분석.#Loki#Go#Performance#Memory Management#Allocator2026년 1월 20일댓글 수 로딩 중
[Grafana Loki] dataobj pageReader의 메모리 할당을 Reclaim과 Bitmap 직접 전달로 최적화pageReader.read()에서 Reset 대신 Reclaim을 사용하고, presence 비트맵을 직접 전달하여 불필요한 할당을 줄인 dataobj 읽기 경로 최적화 분석.#Grafana Loki#Go#Performance#Memory Allocation#Data Object2026년 1월 20일댓글 수 로딩 중
[Loki] Bitmap 디코더 최적화: 처리량 93.5% 개선Loki dataobj의 bitmap 디코더를 boolean 전용으로 특수화하고 memory.Bitmap으로 전환하여 처리량을 93.5% 개선한 PR 분석.#Grafana Loki#Go#Bitmap#Decoder#Performance#Data Object2026년 1월 19일댓글 수 로딩 중
[vllm] Draft Model 기반 Speculative Decoding 지원별도의 소형 draft 모델을 활용한 speculative decoding을 vLLM V1 엔진에 공식 통합#vllm#Performance2026년 1월 19일댓글 수 로딩 중
[uvloop] _ready_len 레이스 컨디션 수정수동 관리하던 _ready_len 카운터를 len(self._ready) 직접 호출로 대체하여 race condition을 제거한다#uvloop#Race Condition#Event Loop#Cython2026년 1월 19일댓글 수 로딩 중
[llm-compressor] Memoryless Observers - 메모리 효율적 가중치 관찰자양자화 캘리브레이션의 가중치 관찰자를 memoryless 방식으로 전환하여 메모리 사용량 대폭 감소#llm-compressor#Performance2026년 1월 19일댓글 수 로딩 중