PR Analysis

[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석

Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.

#Triton #GPU #Optimization #Attention #DeepLearning

2026년 4월 23일

[cpython] Python JIT Shim 빌드 프로세스 개선: 런타임 컴파일에서 빌드 타임 링크로

Python JIT shim을 런타임 컴파일에서 빌드 타임 링크로 전환하여 성능과 디버깅 편의성을 개선합니다.

#Python #JIT #Performance Optimization #Build System #CPython #Compiler

2026년 4월 23일

[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입

vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.

#vLLM #CPU #Optimization #NEON #Performance

2026년 4월 23일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석

SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.

#SGLang #성능 최적화 #비동기 프로그래밍 #SSE #Python #메시지큐 #Pydantic #msgspec

2026년 4월 22일

[abtop] Codex 세션 파일 검색 성능 개선: lsof 대신 /proc/pid/fd 활용

Codex 세션에서 열린 JSONL 파일을 찾는 방식을 lsof에서 /proc/pid/fd로 변경하여 Linux 환경에서 성능을 크게 향상시켰습니다.

#Rust #Performance #Linux #Optimization #System Programming

2026년 4월 21일

[abtop] Linux 성능 최적화: lsof 대신 /proc/net/tcp 파싱으로 포트 탐색 개선

abtop의 Linux 포트 탐색 로직을 lsof 대신 /proc/net/tcp 파싱으로 변경하여 성능을 획기적으로 개선한 PR 분석

#Linux #성능 최적화 #시스템 프로그래밍 #abtop #procfs

2026년 4월 21일

[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법

백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.

#vLLM #Performance #Optimization #Python #Multiprocessing

2026년 4월 21일

[ollama] Ollama MLX Sampler 최적화: 성능 향상과 Logprobs 지원

Ollama의 MLX 러너에서 샘플링 로직을 개선하여 성능을 약 1.5% 향상하고 Logprobs 기능을 통합했습니다.

#Ollama #MLX #LLM #Performance #Golang

2026년 4월 21일

[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상

vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.

#vLLM #Gemma4 #Triton #최적화 #성능 향상 #AI 모델 서빙

2026년 4월 19일

[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상

vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.

#vLLM #MXFP4 #MoE #Quantization #CUTLASS #Performance Optimization #SM100

2026년 4월 18일

[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상

vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.

#vLLM #최적화 #멀티모달 #성능 #Python #PyTorch

2026년 4월 18일

[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기

불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.

#vLLM #CI/CD #Optimization #MoE #Python

2026년 4월 18일

[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상

Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.

#Triton #AMD #GPU #Optimization #GEMM #HPC

2026년 4월 18일

[open-webui] Open WebUI 성능 최적화: 불필요한 DB 중복 조회 제거하기

인증 과정에서 이미 로드된 사용자 정보를 재조회하던 비효율적인 DB 호출을 제거하여 API 응답 속도를 개선했습니다.

#Python #FastAPI #Performance #Optimization #OpenWebUI

2026년 4월 17일

[open-webui] Open WebUI 채팅 파일 중복 제거 로직 최적화: O(n*m)에서 O(n+m)으로

Open WebUI의 채팅 파일 중복 제거 로직을 리스트에서 세트로 변경하여 성능을 크게 개선했습니다.

#Python #Optimization #Performance #Backend #Open WebUI

2026년 4월 17일

[open-webui] Open WebUI 성능 개선: DB 세션 재사용으로 프로필 이미지 로딩 최적화

Open WebUI에서 프로필 이미지 로딩 시 DB 세션 중복 생성을 방지하여 성능을 개선했습니다.

#Python #FastAPI #SQLAlchemy #Performance Optimization #Database

2026년 4월 17일

[cpython] CPython JIT 구현을 위한 내부 API 익스포트: PEP 523 활용

CPython의 내부 함수들을 JIT 컴파일러가 사용할 수 있도록 PyAPI_FUNC로 노출하여 성능 최적화 기반을 마련한 변경사항 분석.

#CPython #JIT #PEP-523 #Internal API #Performance

2026년 4월 17일

[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성

Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.

#vLLM #Gemma4 #CUDA #Performance-Optimization #PyTorch

2026년 4월 17일

[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속

vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.

#vLLM #Arm CPU #BF16 #GELU #최적화 #성능 개선 #LUT

2026년 4월 16일