[triton] AMD GFX9 AsyncCopy를 위한 Padded Layout 선택 확장AMD CDNA4(GFX9) GPU에서 async copy의 padded layout 선택을 8비트 데이터 타입과 더 넓은 kWidth로 확장하여 bank conflict를 줄인 PR 분석.#Triton#AMD#CDNA4#AsyncCopy#PaddedLayout#BankConflict2026년 3월 9일댓글 수 로딩 중
[Loki] query_range 요청에 캐시 비활성화 헤더 지원 추가Cache-Control 헤더로 query_range 결과 캐시를 비활성화할 수 있도록 개선#Grafana Loki#Cache#HTTP Headers#Performance2026년 3월 9일댓글 수 로딩 중
[PyTorch] Inductor mixed-order reduction 최적화mix-order-reduction의 multi-stage를 기본 비활성화하여 shared memory 초과 문제를 방지한다#PyTorch#Inductor#Triton#Compiler2026년 3월 9일댓글 수 로딩 중
[Grafana Loki] Thor(V2) 쿼리 엔진에 결과 캐시 미들웨어 추가메트릭, 인스턴트 메트릭, 로그 쿼리 각각에 독립적인 결과 캐시를 추가하여 반복 쿼리의 GCS/오브젝트 스토어 접근을 제거한 성능 최적화 분석.#Grafana Loki#Go#Performance#Cache#Query Engine2026년 3월 9일댓글 수 로딩 중
[Open WebUI] 채팅 메시지 마이그레이션을 스트리밍+배치 처리로 전환하여 메모리 폭발 방지fetchall()로 전체 데이터를 메모리에 로드하고 건별 INSERT하던 마이그레이션을 yield_per 스트리밍과 5000건 단위 배치 INSERT로 전환한 분석.#Open WebUI#Python#Performance#SQLAlchemy#Migration2026년 3월 8일댓글 수 로딩 중
[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram DraftingN-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환#vllm#Performance2026년 3월 7일댓글 수 로딩 중
[Axolotl] 가중치 동기 로딩으로 OOM 방지MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정#Axolotl#MoE#OOM#Memory Optimization#Quantization2026년 3월 7일댓글 수 로딩 중
[triton] AMD FpSan dot 에뮬레이션의 MFMA/WMMA encoding 호환성 수정FP Sanitizer의 dot 에뮬레이션에서 MFMA/WMMA 인코딩 대신 최적화된 blocked layout을 사용하고 cross-warp barrier를 추가하여 정확성을 보장한 PR을 분석합니다.#Triton#AMD#FpSan#Bug Fix#MFMA2026년 3월 6일댓글 수 로딩 중
[Open WebUI] Artifacts 컴포넌트 메모리 누수 수정Svelte store 구독 해제 누락으로 인한 메모리 누수 해결#Open WebUI#Svelte#Memory Leak#Performance2026년 3월 6일댓글 수 로딩 중
[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.#Axolotl#MoE#ScatterMoE#Triton#Routing#Telemetry2026년 3월 6일댓글 수 로딩 중
[axolotl] 코드 품질 개선: CONTRIBUTING.md 플레이스홀더 수정, bare except 제거, convert.py 테스트 추가axolotl의 CONTRIBUTING.md 플레이스홀더 문제를 수정하고, bare except를 구체적 예외로 변경하며, convert.py에 대한 단위 테스트를 추가한 사례를 분석합니다.#Axolotl#Code Quality#Testing#Best Practices2026년 3월 6일댓글 수 로딩 중
[Open WebUI] N+1 쿼리 제거: Function Valves 일괄 조회 최적화모델별 액션마다 개별 DB 쿼리를 던지던 N+1 패턴을 WHERE IN 일괄 조회로 개선한 분석.#Open WebUI#Python#Database#N+1 Query#SQLAlchemy#Performance2026년 3월 6일댓글 수 로딩 중
[Open WebUI] 재귀적 메시지 리스트 생성을 반복문으로 전환하여 O(d²) → O(d) 개선spread 기반 재귀 구현을 push+reverse 반복문으로 변환하여 대화 깊이에 따른 O(d²) 배열 복사를 제거한 분석.#Open WebUI#TypeScript#Performance#Algorithm#Frontend#Svelte2026년 3월 6일댓글 수 로딩 중
[Open WebUI] APIKeyRestrictionMiddleware를 순수 ASGI로 전환하여 스트리밍 오버헤드 제거BaseHTTPMiddleware를 상속하던 API 키 제한 미들웨어를 순수 ASGI 미들웨어로 변환하여, 스트리밍 응답의 모든 청크가 미들웨어 Python 호출 스택을 통과하던 오버헤드를 제거한 PR을 분석합니다.#Open WebUI#ASGI#Performance#Python#Middleware#Starlette2026년 3월 6일댓글 수 로딩 중
[Open WebUI] TTS 문장 파싱을 showCallOverlay 가드로 감싸 불필요한 O(n^2) 연산 제거음성 통화 오버레이가 비활성일 때 매 토큰마다 실행되던 정규식 파싱을 완전히 건너뛰도록 가드를 추가한 최적화 분석.#Open WebUI#Svelte#JavaScript#Performance#TTS#Regex2026년 3월 6일댓글 수 로딩 중
[Open WebUI] 스트리밍 중 동일 콘텐츠의 중복 마크다운 파싱을 캐시로 방지매 애니메이션 프레임마다 실행되던 Markdown 파서에 단순 캐시를 추가하여, 새 토큰이 없을 때 불필요한 파싱을 건너뛰는 최적화 분석.#Open WebUI#Svelte#Performance#Frontend#Markdown2026년 3월 6일댓글 수 로딩 중
[Open WebUI] O(n²) unshift를 O(n) push+reverse로 교체하여 메시지 빌드 최적화Svelte 프론트엔드에서 Array.unshift() 반복 호출로 인한 O(n²) 병목을 push()+reverse()로 개선한 분석.#Open WebUI#JavaScript#Performance#Algorithm#Time Complexity2026년 3월 6일댓글 수 로딩 중
[Open WebUI] Shiki 지연 로딩으로 초기 번들 5~10MB 감소Open WebUI 프론트엔드에서 shiki 코드 하이라이터를 동적 import로 전환하여 초기 페이지 로드 시 5~10MB의 JavaScript를 제거한 PR 분석.#Open WebUI#Frontend#Bundle Size#Lazy Loading#Shiki#Dynamic Import2026년 3월 6일댓글 수 로딩 중
[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.#Triton#NVIDIA#GPU#MultiCTA#Tutorial#Blackwell2026년 3월 6일댓글 수 로딩 중
[Gradio] MCP 도구 호출 레이턴시 개선 — HTTP 루프백 제거non-queued MCP 이벤트에서 HTTP 루프백을 제거하고 process_api()를 직접 호출하여 레이턴시를 대폭 줄인다#Gradio#MCP#Latency Optimization#Python2026년 3월 6일댓글 수 로딩 중