PR Analysis

[sglang] CI에 네트워크 타임아웃 추가 및 러너별 동적 병렬도 설정

테스트 네트워크 요청에 타임아웃을 추가하고, 5090/2-GPU 러너에 맞는 동적 max-parallel 값을 도입

#SGLang #CI/CD #GitHub Actions #Testing

2026년 4월 1일

[Open WebUI] replaceTokens 함수에 early return 추가로 스트리밍 성능 개선

Open WebUI에서 스트리밍 중 매 프레임마다 불필요하게 실행되던 replaceTokens의 정규식 연산을, 단순한 문자열 포함 검사로 조기 반환하여 성능을 개선한 최적화를 분석합니다.

#Open WebUI #TypeScript #Performance #Early Return #Streaming

2026년 4월 1일

[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성

SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.

#SGLang #sgl-kernel #JIT #AOT #Cleanup #CUDA #C++

2026년 4월 1일

[Open WebUI] 스트림 청크 핸들러에서 yield 호출 횟수 절반으로 줄이기

라인별 두 번의 yield를 한 번으로 합쳐 async generator 오버헤드 감소

#Open WebUI #Performance

2026년 3월 31일

[Open WebUI] JS transition을 CSS 애니메이션으로 교체하여 스트리밍 렌더링 최적화

Svelte의 transition:fade를 CSS @keyframes로 대체하여 스트리밍 중 메인 스레드 부하를 대폭 줄인 분석.

#Open WebUI #Svelte #Performance #CSS #Animation

2026년 3월 31일

[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정

Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.

#Ray #PyArrow #Parquet #Bug Fix #Data Processing

2026년 4월 1일

[Ray] ActorHandle의 hash 캐싱 및 eq 정확성 수정

해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정

#Ray #Python #Hash Optimization #Performance

2026년 3월 31일

[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가

SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.

#Ultralytics #YOLO26 #SAM-2 #Benchmark #Documentation

2026년 3월 31일

[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신

SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.

#Ultralytics #YOLO26 #SAM #Benchmark #Segmentation

2026년 3월 31일

[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기

Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.

#Feast #Python #Performance #Optimization #Data Engineering

2026년 3월 31일

[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선

Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석

#Mamba #Cache Optimization #Performance Tuning #LLM #sglang

2026년 3월 31일

[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존

SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.

#SGLang #CUDA Graph #Sliding Window Attention #성능 최적화 #LLM 추론

2026년 3월 31일

[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영

Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.

#Ray #Python #Performance #Resource Management #Memory #Data Pipeline

2026년 3월 31일

[Open WebUI] CodespanToken에서 JS 트랜지션을 CSS 애니메이션으로 교체하여 메인 스레드 부하 제거

Svelte의 transition:fade를 CSS @keyframes로 교체하고, 중복된 코드 블록을 단일 엘리먼트로 통합한 최적화 분석.

#Open WebUI #Svelte #CSS #JavaScript #Performance #Animation

2026년 3월 31일

[triton] Proton CUPTI Graph Replay 힙 증가 재현 테스트 추가

CUDA graph replay 중 CUPTI 라이브러리의 메모리 누수를 체계적으로 재현하고 프로파일링하는 테스트 스크립트를 분석합니다.

#Triton #Proton #Profiling #CUDA #MemoryLeak

2026년 3월 31일

[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결

Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.

#SGLang #NPU #Ascend #Memory Management #Bug Fix

2026년 3월 31일

[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가

AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보

#Triton #AMD #gfx1250 #GEMM #Tensor Descriptor #Testing

2026년 3월 31일

[sglang] DeepEP Low Latency FP8 Dispatch 변경 revert

DeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보

#SGLang #DeepEP #MoE #FP8 #Revert

2026년 3월 31일

[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지

pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결

#SGLang #CI/CD #Performance #NVIDIA

2026년 3월 31일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일