[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.#SGLang#sgl-kernel#JIT#AOT#Cleanup#CUDA#C++2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 스트림 청크 핸들러에서 yield 호출 횟수 절반으로 줄이기라인별 두 번의 yield를 한 번으로 합쳐 async generator 오버헤드 감소#Open WebUI#Performance2026년 3월 31일댓글 수 로딩 중
[Open WebUI] JS transition을 CSS 애니메이션으로 교체하여 스트리밍 렌더링 최적화Svelte의 transition:fade를 CSS @keyframes로 대체하여 스트리밍 중 메인 스레드 부하를 대폭 줄인 분석.#Open WebUI#Svelte#Performance#CSS#Animation2026년 3월 31일댓글 수 로딩 중
[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.#Ray#PyArrow#Parquet#Bug Fix#Data Processing2026년 4월 1일댓글 수 로딩 중
[Ray] ActorHandle의 __hash__ 캐싱 및 __eq__ 정확성 수정해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정#Ray#Python#Hash Optimization#Performance2026년 3월 31일댓글 수 로딩 중
[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.#Ultralytics#YOLO26#SAM-2#Benchmark#Documentation2026년 3월 31일댓글 수 로딩 중
[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.#Ultralytics#YOLO26#SAM#Benchmark#Segmentation2026년 3월 31일댓글 수 로딩 중
[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.#Feast#Python#Performance#Optimization#Data Engineering2026년 3월 31일댓글 수 로딩 중
[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석#Mamba#Cache Optimization#Performance Tuning#LLM#sglang2026년 3월 31일댓글 수 로딩 중
[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.#SGLang#CUDA Graph#Sliding Window Attention#성능 최적화#LLM 추론2026년 3월 31일댓글 수 로딩 중
[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.#Ray#Python#Performance#Resource Management#Memory#Data Pipeline2026년 3월 31일댓글 수 로딩 중
[Open WebUI] CodespanToken에서 JS 트랜지션을 CSS 애니메이션으로 교체하여 메인 스레드 부하 제거Svelte의 transition:fade를 CSS @keyframes로 교체하고, 중복된 코드 블록을 단일 엘리먼트로 통합한 최적화 분석.#Open WebUI#Svelte#CSS#JavaScript#Performance#Animation2026년 3월 31일댓글 수 로딩 중
[triton] Proton CUPTI Graph Replay 힙 증가 재현 테스트 추가CUDA graph replay 중 CUPTI 라이브러리의 메모리 누수를 체계적으로 재현하고 프로파일링하는 테스트 스크립트를 분석합니다.#Triton#Proton#Profiling#CUDA#MemoryLeak2026년 3월 31일댓글 수 로딩 중
[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.#SGLang#NPU#Ascend#Memory Management#Bug Fix2026년 3월 31일댓글 수 로딩 중
[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보#Triton#AMD#gfx1250#GEMM#Tensor Descriptor#Testing2026년 3월 31일댓글 수 로딩 중
[sglang] DeepEP Low Latency FP8 Dispatch 변경 revertDeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보#SGLang#DeepEP#MoE#FP8#Revert2026년 3월 31일댓글 수 로딩 중
[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결#SGLang#CI/CD#Performance#NVIDIA2026년 3월 31일댓글 수 로딩 중
[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결#SGLang#AMD#ROCm#MoE#GEMM2026년 3월 31일댓글 수 로딩 중
[llm-compressor] GPTQ Block Quantization 지원GPTQ 양자화에 block quantization을 추가하여 더 세밀한 양자화 그룹 분할과 품질 향상#llm-compressor#Performance2026년 3월 31일댓글 수 로딩 중
[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.#SGLang#Testing#JIT Compilation#Multiprocessing#All Reduce#CUDA2026년 3월 31일댓글 수 로딩 중