PR Analysis

[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상

Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.

#Triton #AMD #GPU #Optimization #GEMM

2026년 3월 25일

[SGLang] Diffusion Triton Rotary Embedding 다중 헤드 병렬 처리 최적화

Triton rotary embedding 커널을 토큰당 여러 헤드를 동시에 처리하도록 재구성하여 커널 launch 횟수를 줄인다

#SGLang #Triton #Diffusion #Rotary Embedding

2026년 3월 26일

[SGLang] wait-for-jobs에 ETag conditional request 도입으로 API rate limit 절약

GitHub Actions의 wait-for-jobs에서 ETag 기반 조건부 요청을 사용하여 304 Not Modified 응답 시 rate limit을 소비하지 않도록 개선한다

#SGLang #CI/CD #GitHub Actions #Rate Limiting

2026년 3월 25일

[Open WebUI] 이중 RAF 제거로 스트리밍 표시 지연 32ms에서 16ms로 단축

이미 존재하는 RAF 쓰로틀링 위에 중복 RAF를 추가한 실수를 되돌려 스트리밍 렌더링 지연을 절반으로 줄인 PR 분석.

#Open WebUI #Frontend #requestAnimationFrame #Streaming #Svelte #Latency

2026년 3월 25일

[Axolotl] 플러그인에 scored rollout 디스패치, 외부 플러그인 경로 확장, vLLM 에러 처리 개선

Axolotl GRPO 트레이너에 on_rollouts_scored 플러그인 훅 추가, pkgutil로 외부 플러그인 발견 경로 확장, vLLM /reset_prefix_cache의 에러 처리를 개선한 분석.

#Axolotl #Plugin System #GRPO #vLLM #Error Handling #Python

2026년 3월 25일

[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩

LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.

#Triton #AMD #WMMA #Gluon #Optimization

2026년 3월 25일

[Open WebUI] sendMessage에서 중복 getChatList 호출 제거

메시지 전송 시 불필요한 사이드바 갱신 DB 쿼리 1회 제거

#Open WebUI #Svelte #Frontend Optimization #Performance

2026년 3월 25일

[Open WebUI] saveChatHandler에서 불필요한 채팅 목록 재조회 제거

메시지 저장 때마다 전체 채팅 목록을 다시 불러오던 getChatList 호출을 제거하여 불필요한 네트워크 왕복을 차단한 최적화.

#Open WebUI #Svelte #Performance #Frontend #API Call

2026년 3월 25일

[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정

Qwen3.5 HiCache 테스트를 별도 파일로 분리하고 max_tokens를 16000으로 늘려 CI 안정성을 확보한다

#SGLang #CI #Testing #HiCache

2026년 3월 25일

[Ray] 압력 기반 메모리 모니터 도입으로 메모리 관리 고도화

cgroup PSI 기반 메모리 압력 감지로 임계값 방식보다 정밀한 메모리 관리

#Ray #Performance

2026년 3월 24일

[cpython] CPython JIT 최적화: Float 연산의 In-place 변환을 통한 성능 향상

CPython JIT의 Tier 2 옵티마이저에서 고유 참조된 Float 피연산자를 In-place로 변환하여 메모리 할당을 줄이고 성능을 개선하는 방법.

#CPython #JIT #Optimization #Python Internals #Performance

2026년 3월 24일

[Open WebUI] chatEventHandler의 히스토리 업데이트를 rAF로 배치 처리하기

스트리밍 중 불필요한 Svelte 반응형 업데이트를 requestAnimationFrame으로 묶어 성능 개선

#Open WebUI #Performance

2026년 3월 24일

[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환

completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.

#Ray #Python #Performance #SGLang #LLM Serving

2026년 3월 24일

[triton] GSan 테스트에서 nanosleep 대신 Atomic 기반 동기화로 전환

GPU Sanitizer 테스트에서 비결정적인 nanosleep 기반 동기화를 atomic polling으로 교체하여 테스트 안정성을 크게 향상시킨 사례를 분석합니다.

#Triton #GSan #Testing #GPU #Synchronization

2026년 3월 24일

[vllm] Thinking Token Hard Limit - 추론 토큰 수 제한으로 리소스 제어

reasoning 모델의 thinking token에 hard limit을 설정하여 과도한 연산 소비를 방지하고 예측 가능한 서빙

#vllm #Performance

2026년 3월 24일

[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축

서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다

#Gradio #Profiling #Benchmark #Observability

2026년 3월 24일

[CPython] JIT float 연산 최적화 — 유일 참조 피연산자 재사용

CPython JIT에서 유일 참조 float 객체를 in-place 변경하여 메모리 할당을 제거한다

#CPython #JIT #Optimization #Float

2026년 3월 24일

[Open WebUI] asyncio.to_thread로 heartbeat DB 쓰기 이벤트 루프 블로킹 해소

heartbeat 핸들러에서 동기 DB 호출이 이벤트 루프를 블로킹하는 문제를 asyncio.to_thread로 해결한 1줄 수정 PR 분석.

#Open WebUI #asyncio #Python #Event Loop #Database #WebSocket

2026년 3월 24일

[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화

buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.

#Triton #AMD #GPU #TDM #FlashAttention

2026년 3월 23일

[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리

HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.

#SGLang #LLM #KV Cache #Sparse Attention #CUDA

2026년 3월 23일