[SGLang] wait-for-jobs에 ETag conditional request 도입으로 API rate limit 절약GitHub Actions의 wait-for-jobs에서 ETag 기반 조건부 요청을 사용하여 304 Not Modified 응답 시 rate limit을 소비하지 않도록 개선한다#SGLang#CI/CD#GitHub Actions#Rate Limiting2026년 3월 25일댓글 수 로딩 중
[Open WebUI] 이중 RAF 제거로 스트리밍 표시 지연 32ms에서 16ms로 단축이미 존재하는 RAF 쓰로틀링 위에 중복 RAF를 추가한 실수를 되돌려 스트리밍 렌더링 지연을 절반으로 줄인 PR 분석.#Open WebUI#Frontend#requestAnimationFrame#Streaming#Svelte#Latency2026년 3월 25일댓글 수 로딩 중
[Axolotl] 플러그인에 scored rollout 디스패치, 외부 플러그인 경로 확장, vLLM 에러 처리 개선Axolotl GRPO 트레이너에 on_rollouts_scored 플러그인 훅 추가, pkgutil로 외부 플러그인 발견 경로 확장, vLLM /reset_prefix_cache의 에러 처리를 개선한 분석.#Axolotl#Plugin System#GRPO#vLLM#Error Handling#Python2026년 3월 25일댓글 수 로딩 중
[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.#Triton#AMD#WMMA#Gluon#Optimization2026년 3월 25일댓글 수 로딩 중
[Open WebUI] sendMessage에서 중복 getChatList 호출 제거메시지 전송 시 불필요한 사이드바 갱신 DB 쿼리 1회 제거#Open WebUI#Svelte#Frontend Optimization#Performance2026년 3월 25일댓글 수 로딩 중
[Open WebUI] saveChatHandler에서 불필요한 채팅 목록 재조회 제거메시지 저장 때마다 전체 채팅 목록을 다시 불러오던 getChatList 호출을 제거하여 불필요한 네트워크 왕복을 차단한 최적화.#Open WebUI#Svelte#Performance#Frontend#API Call2026년 3월 25일댓글 수 로딩 중
[SGLang] TestQwen35WithHiCache CI 테스트 분리 및 수정Qwen3.5 HiCache 테스트를 별도 파일로 분리하고 max_tokens를 16000으로 늘려 CI 안정성을 확보한다#SGLang#CI#Testing#HiCache2026년 3월 25일댓글 수 로딩 중
[Ray] 압력 기반 메모리 모니터 도입으로 메모리 관리 고도화cgroup PSI 기반 메모리 압력 감지로 임계값 방식보다 정밀한 메모리 관리#Ray#Performance2026년 3월 24일댓글 수 로딩 중
[cpython] CPython JIT 최적화: Float 연산의 In-place 변환을 통한 성능 향상CPython JIT의 Tier 2 옵티마이저에서 고유 참조된 Float 피연산자를 In-place로 변환하여 메모리 할당을 줄이고 성능을 개선하는 방법.#CPython#JIT#Optimization#Python Internals#Performance2026년 3월 24일댓글 수 로딩 중
[Open WebUI] chatEventHandler의 히스토리 업데이트를 rAF로 배치 처리하기스트리밍 중 불필요한 Svelte 반응형 업데이트를 requestAnimationFrame으로 묶어 성능 개선#Open WebUI#Performance2026년 3월 24일댓글 수 로딩 중
[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.#Ray#Python#Performance#SGLang#LLM Serving2026년 3월 24일댓글 수 로딩 중
[triton] GSan 테스트에서 nanosleep 대신 Atomic 기반 동기화로 전환GPU Sanitizer 테스트에서 비결정적인 nanosleep 기반 동기화를 atomic polling으로 교체하여 테스트 안정성을 크게 향상시킨 사례를 분석합니다.#Triton#GSan#Testing#GPU#Synchronization2026년 3월 24일댓글 수 로딩 중
[vllm] Thinking Token Hard Limit - 추론 토큰 수 제한으로 리소스 제어reasoning 모델의 thinking token에 hard limit을 설정하여 과도한 연산 소비를 방지하고 예측 가능한 서빙#vllm#Performance2026년 3월 24일댓글 수 로딩 중
[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다#Gradio#Profiling#Benchmark#Observability2026년 3월 24일댓글 수 로딩 중
[CPython] JIT float 연산 최적화 — 유일 참조 피연산자 재사용CPython JIT에서 유일 참조 float 객체를 in-place 변경하여 메모리 할당을 제거한다#CPython#JIT#Optimization#Float2026년 3월 24일댓글 수 로딩 중
[Open WebUI] asyncio.to_thread로 heartbeat DB 쓰기 이벤트 루프 블로킹 해소heartbeat 핸들러에서 동기 DB 호출이 이벤트 루프를 블로킹하는 문제를 asyncio.to_thread로 해결한 1줄 수정 PR 분석.#Open WebUI#asyncio#Python#Event Loop#Database#WebSocket2026년 3월 24일댓글 수 로딩 중
[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.#Triton#AMD#GPU#TDM#FlashAttention2026년 3월 23일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[Ray] Actor Pool Map Operator 스케줄러 오버헤드 57% 감소Ray Data의 actor pool 스케줄러에서 protobuf enum 캐싱, dict lookup 최소화, 상수 호이스팅으로 500+ 액터 환경에서 57% 성능 개선을 달성한 PR 분석.#Ray#Ray Data#Actor Pool#Python Optimization#Protobuf#Performance2026년 3월 23일댓글 수 로딩 중
[vllm] ViT Full CUDA Graph - 비전 인코더 CUDA Graph 완전 지원EncoderCudaGraphManager를 도입하여 ViT 인코더의 CUDA Graph 캡처/리플레이를 구현, 비전 모델 추론 가속#vllm#Performance2026년 3월 23일댓글 수 로딩 중