[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.#Triton#AMD#Compiler#Bug Fix#MLIR2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang Ascend NPU에서 Ring-SP를 활용한 성능 최적화 가이드Ascend NPU 환경에서 Ring-SP를 통해 Wan2.1 모델의 추론 성능을 약 1.88배 향상시킨 사례와 벤치마크 가이드를 소개합니다.#SGLang#Ascend NPU#Ring-SP#Performance Optimization#Diffusion Models2026년 4월 1일댓글 수 로딩 중
[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.#Vitest#CI#Performance#Optimization#Testing2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[Loki] Kafka 파티션 불필요한 Shuffle Sharding 제거ShardSize가 0일 때 불필요한 shuffle shard 생성을 건너뛰어 메모리 사용량 절감.#Grafana Loki#Go#Performance#Kafka#Memory Optimization2026년 4월 1일댓글 수 로딩 중
[Open WebUI] ChatItem 사이드바 메모리 누수 수정이벤트 리스너 정리와 공유 드래그 이미지로 사이드바 ChatItem의 메모리 누수 해결.#Open WebUI#Svelte#Performance#Memory Leak#Frontend2026년 4월 1일댓글 수 로딩 중
[Open WebUI] DOMParser 대신 html-entities로 HTML 디코딩 최적화스트리밍 중 매 프레임마다 DOM 문서를 생성하던 unescapeHtml을 경량 decode 함수로 교체.#Open WebUI#TypeScript#Performance#Frontend#GC Pressure2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 비중국어 콘텐츠에 대한 불필요한 처리 스킵으로 스트리밍 성능 개선매 스트리밍 프레임마다 중국어 여부와 관계없이 실행되던 processChineseContent 함수에 가드 조건을 추가하여 비중국어 콘텐츠의 처리 오버헤드를 제거한 PR을 분석합니다.#Open WebUI#Performance#TypeScript#Streaming#Early Return2026년 4월 1일댓글 수 로딩 중
[Loki] 캐시 최대 크기 초과 시 조기 중단으로 OOM 방지증분 인코딩과 크기 체크로 대용량 응답의 불필요한 버퍼링 제거#Grafana Loki#Cache#Memory Optimization#Performance2026년 4월 1일댓글 수 로딩 중
[Grafana Loki] Bitmap.Slice에서 바이트 정렬 경계의 off-by-one 패닉 수정endWord 계산에서 8의 배수일 때 1바이트를 초과 할당하여 발생하는 out-of-bounds 패닉을 올림 나눗셈으로 수정한 버그 분석.#Grafana Loki#Go#Bug Fix#Bitmap#Memory2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 채팅 제목 업데이트 시 DB 컨텍스트를 단일 세션으로 통합하여 역직렬화 2회 제거get_chat_by_id + update_chat_by_id 체이닝으로 두 번의 DB 컨텍스트와 JSON 역직렬화를 발생시키던 로직을 단일 세션으로 인라인한 최적화 분석.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 4월 1일댓글 수 로딩 중
[sglang] Multi-GPU VLM 서빙에서 ShmPointerMMData broadcast race condition 수정Multi-GPU VLM 서빙 시 shared memory 세그먼트의 broadcast race condition을 barrier로 해결#SGLang#VLM#Multi-GPU#Race Condition#Bug Fix2026년 4월 1일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중
[sglang] HiRadixCache에서 TTL 기반 hard pin 기능 제거HiRadixCache의 TTL 기반 prefix pinning 기능 전체를 revert하여 코드 복잡도를 줄이고 캐시 관리를 단순화#SGLang#Cache#HiRadixCache#Revert2026년 4월 1일댓글 수 로딩 중
[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가#SGLang#NPU#Ascend#Ring-SP#Benchmark2026년 4월 1일댓글 수 로딩 중
[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임#SGLang#JIT Kernel#CUDA#RoPE#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] run_eval에 latency 및 throughput 메트릭 추가평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능#SGLang#Evaluation#Metrics#Throughput2026년 4월 1일댓글 수 로딩 중
[sglang] CI에 네트워크 타임아웃 추가 및 러너별 동적 병렬도 설정테스트 네트워크 요청에 타임아웃을 추가하고, 5090/2-GPU 러너에 맞는 동적 max-parallel 값을 도입#SGLang#CI/CD#GitHub Actions#Testing2026년 4월 1일댓글 수 로딩 중
[Open WebUI] replaceTokens 함수에 early return 추가로 스트리밍 성능 개선Open WebUI에서 스트리밍 중 매 프레임마다 불필요하게 실행되던 replaceTokens의 정규식 연산을, 단순한 문자열 포함 검사로 조기 반환하여 성능을 개선한 최적화를 분석합니다.#Open WebUI#TypeScript#Performance#Early Return#Streaming2026년 4월 1일댓글 수 로딩 중