[Open WebUI] DOMParser 대신 html-entities로 HTML 디코딩 최적화스트리밍 중 매 프레임마다 DOM 문서를 생성하던 unescapeHtml을 경량 decode 함수로 교체.#Open WebUI#TypeScript#Performance#Frontend#GC Pressure2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 비중국어 콘텐츠에 대한 불필요한 처리 스킵으로 스트리밍 성능 개선매 스트리밍 프레임마다 중국어 여부와 관계없이 실행되던 processChineseContent 함수에 가드 조건을 추가하여 비중국어 콘텐츠의 처리 오버헤드를 제거한 PR을 분석합니다.#Open WebUI#Performance#TypeScript#Streaming#Early Return2026년 4월 1일댓글 수 로딩 중
[Loki] 캐시 최대 크기 초과 시 조기 중단으로 OOM 방지증분 인코딩과 크기 체크로 대용량 응답의 불필요한 버퍼링 제거#Grafana Loki#Cache#Memory Optimization#Performance2026년 4월 1일댓글 수 로딩 중
[Grafana Loki] Bitmap.Slice에서 바이트 정렬 경계의 off-by-one 패닉 수정endWord 계산에서 8의 배수일 때 1바이트를 초과 할당하여 발생하는 out-of-bounds 패닉을 올림 나눗셈으로 수정한 버그 분석.#Grafana Loki#Go#Bug Fix#Bitmap#Memory2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 채팅 제목 업데이트 시 DB 컨텍스트를 단일 세션으로 통합하여 역직렬화 2회 제거get_chat_by_id + update_chat_by_id 체이닝으로 두 번의 DB 컨텍스트와 JSON 역직렬화를 발생시키던 로직을 단일 세션으로 인라인한 최적화 분석.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 4월 1일댓글 수 로딩 중
[sglang] Multi-GPU VLM 서빙에서 ShmPointerMMData broadcast race condition 수정Multi-GPU VLM 서빙 시 shared memory 세그먼트의 broadcast race condition을 barrier로 해결#SGLang#VLM#Multi-GPU#Race Condition#Bug Fix2026년 4월 1일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중
[sglang] HiRadixCache에서 TTL 기반 hard pin 기능 제거HiRadixCache의 TTL 기반 prefix pinning 기능 전체를 revert하여 코드 복잡도를 줄이고 캐시 관리를 단순화#SGLang#Cache#HiRadixCache#Revert2026년 4월 1일댓글 수 로딩 중
[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가#SGLang#NPU#Ascend#Ring-SP#Benchmark2026년 4월 1일댓글 수 로딩 중
[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임#SGLang#JIT Kernel#CUDA#RoPE#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] run_eval에 latency 및 throughput 메트릭 추가평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능#SGLang#Evaluation#Metrics#Throughput2026년 4월 1일댓글 수 로딩 중
[sglang] CI에 네트워크 타임아웃 추가 및 러너별 동적 병렬도 설정테스트 네트워크 요청에 타임아웃을 추가하고, 5090/2-GPU 러너에 맞는 동적 max-parallel 값을 도입#SGLang#CI/CD#GitHub Actions#Testing2026년 4월 1일댓글 수 로딩 중
[Open WebUI] replaceTokens 함수에 early return 추가로 스트리밍 성능 개선Open WebUI에서 스트리밍 중 매 프레임마다 불필요하게 실행되던 replaceTokens의 정규식 연산을, 단순한 문자열 포함 검사로 조기 반환하여 성능을 개선한 최적화를 분석합니다.#Open WebUI#TypeScript#Performance#Early Return#Streaming2026년 4월 1일댓글 수 로딩 중
[sglang] sgl-kernel 레거시 경로 대규모 제거: AOT에서 JIT로의 전환 완성SGLang에서 sgl-kernel AOT(Ahead-of-Time) 빌드 의존성 1,708줄을 삭제하고 JIT 커널만 남긴 대규모 정리 분석.#SGLang#sgl-kernel#JIT#AOT#Cleanup#CUDA#C++2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 스트림 청크 핸들러에서 yield 호출 횟수 절반으로 줄이기라인별 두 번의 yield를 한 번으로 합쳐 async generator 오버헤드 감소#Open WebUI#Performance2026년 3월 31일댓글 수 로딩 중
[Open WebUI] JS transition을 CSS 애니메이션으로 교체하여 스트리밍 렌더링 최적화Svelte의 transition:fade를 CSS @keyframes로 대체하여 스트리밍 중 메인 스레드 부하를 대폭 줄인 분석.#Open WebUI#Svelte#Performance#CSS#Animation2026년 3월 31일댓글 수 로딩 중
[Ray] Parquet 배치 크기를 C++ 32비트 정수 범위로 클램핑하여 OverflowError 수정Ray Data에서 PyArrow의 to_batches가 C int(32비트)로 batch_size를 전달할 때 발생하는 OverflowError를, 값 범위 클램핑으로 해결한 버그 수정을 분석합니다.#Ray#PyArrow#Parquet#Bug Fix#Data Processing2026년 4월 1일댓글 수 로딩 중
[Ray] ActorHandle의 __hash__ 캐싱 및 __eq__ 정확성 수정해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정#Ray#Python#Hash Optimization#Performance2026년 3월 31일댓글 수 로딩 중
[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.#Ultralytics#YOLO26#SAM-2#Benchmark#Documentation2026년 3월 31일댓글 수 로딩 중