[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.#vLLM#CUDA#Performance#KV-Cache#Optimization2026년 4월 3일댓글 수 로딩 중
[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.#vLLM#Mamba#Optimization#DeepLearning#Performance2026년 4월 3일댓글 수 로딩 중
[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.#Vitest#CI#Performance#Optimization#Testing2026년 4월 1일댓글 수 로딩 중
[Loki] Kafka 파티션 불필요한 Shuffle Sharding 제거ShardSize가 0일 때 불필요한 shuffle shard 생성을 건너뛰어 메모리 사용량 절감.#Grafana Loki#Go#Performance#Kafka#Memory Optimization2026년 4월 1일댓글 수 로딩 중
[Open WebUI] ChatItem 사이드바 메모리 누수 수정이벤트 리스너 정리와 공유 드래그 이미지로 사이드바 ChatItem의 메모리 누수 해결.#Open WebUI#Svelte#Performance#Memory Leak#Frontend2026년 4월 1일댓글 수 로딩 중
[Open WebUI] DOMParser 대신 html-entities로 HTML 디코딩 최적화스트리밍 중 매 프레임마다 DOM 문서를 생성하던 unescapeHtml을 경량 decode 함수로 교체.#Open WebUI#TypeScript#Performance#Frontend#GC Pressure2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 비중국어 콘텐츠에 대한 불필요한 처리 스킵으로 스트리밍 성능 개선매 스트리밍 프레임마다 중국어 여부와 관계없이 실행되던 processChineseContent 함수에 가드 조건을 추가하여 비중국어 콘텐츠의 처리 오버헤드를 제거한 PR을 분석합니다.#Open WebUI#Performance#TypeScript#Streaming#Early Return2026년 4월 1일댓글 수 로딩 중
[Loki] 캐시 최대 크기 초과 시 조기 중단으로 OOM 방지증분 인코딩과 크기 체크로 대용량 응답의 불필요한 버퍼링 제거#Grafana Loki#Cache#Memory Optimization#Performance2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 채팅 제목 업데이트 시 DB 컨텍스트를 단일 세션으로 통합하여 역직렬화 2회 제거get_chat_by_id + update_chat_by_id 체이닝으로 두 번의 DB 컨텍스트와 JSON 역직렬화를 발생시키던 로직을 단일 세션으로 인라인한 최적화 분석.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 4월 1일댓글 수 로딩 중
[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합#SGLang#JIT Kernel#RMSNorm#CUDA#Performance2026년 4월 1일댓글 수 로딩 중
[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임#SGLang#JIT Kernel#CUDA#RoPE#Performance2026년 4월 1일댓글 수 로딩 중
[Open WebUI] replaceTokens 함수에 early return 추가로 스트리밍 성능 개선Open WebUI에서 스트리밍 중 매 프레임마다 불필요하게 실행되던 replaceTokens의 정규식 연산을, 단순한 문자열 포함 검사로 조기 반환하여 성능을 개선한 최적화를 분석합니다.#Open WebUI#TypeScript#Performance#Early Return#Streaming2026년 4월 1일댓글 수 로딩 중
[Open WebUI] 스트림 청크 핸들러에서 yield 호출 횟수 절반으로 줄이기라인별 두 번의 yield를 한 번으로 합쳐 async generator 오버헤드 감소#Open WebUI#Performance2026년 3월 31일댓글 수 로딩 중
[Open WebUI] JS transition을 CSS 애니메이션으로 교체하여 스트리밍 렌더링 최적화Svelte의 transition:fade를 CSS @keyframes로 대체하여 스트리밍 중 메인 스레드 부하를 대폭 줄인 분석.#Open WebUI#Svelte#Performance#CSS#Animation2026년 3월 31일댓글 수 로딩 중
[Ray] ActorHandle의 __hash__ 캐싱 및 __eq__ 정확성 수정해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정#Ray#Python#Hash Optimization#Performance2026년 3월 31일댓글 수 로딩 중
[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.#Feast#Python#Performance#Optimization#Data Engineering2026년 3월 31일댓글 수 로딩 중
[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.#Ray#Python#Performance#Resource Management#Memory#Data Pipeline2026년 3월 31일댓글 수 로딩 중
[Open WebUI] CodespanToken에서 JS 트랜지션을 CSS 애니메이션으로 교체하여 메인 스레드 부하 제거Svelte의 transition:fade를 CSS @keyframes로 교체하고, 중복된 코드 블록을 단일 엘리먼트로 통합한 최적화 분석.#Open WebUI#Svelte#CSS#JavaScript#Performance#Animation2026년 3월 31일댓글 수 로딩 중
[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결#SGLang#CI/CD#Performance#NVIDIA2026년 3월 31일댓글 수 로딩 중
[llm-compressor] GPTQ Block Quantization 지원GPTQ 양자화에 block quantization을 추가하여 더 세밀한 양자화 그룹 분할과 품질 향상#llm-compressor#Performance2026년 3월 31일댓글 수 로딩 중
[Open WebUI] PanZoom 인스턴스 메모리 누수를 PanzoomContainer 컴포넌트로 통합 해결여러 컴포넌트에 분산된 panzoom 생성/해제 로직을 단일 PanzoomContainer로 통합하여 dispose 누락으로 인한 메모리 누수를 근본적으로 해결한 분석.#Open WebUI#Svelte#Performance#Memory Leak#Frontend2026년 3월 31일댓글 수 로딩 중
[gradio] Gradio SSE 라우트의 폴링 제거를 통한 성능 최적화Gradio의 SSE 통신에서 비효율적인 폴링 방식을 제거하고, asyncio.Queue를 활용한 이벤트 기반 대기 방식으로 전환하여 오버헤드를 획기적으로 줄였습니다.#Gradio#Python#asyncio#Performance#SSE2026년 3월 30일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[CPython] dict 접근 최적화: known hash를 활용한 중복 해시 계산 제거CPython의 dict 자료구조에서 이미 알고 있는 hash 값을 활용하여 중복 해시 연산을 제거하는 JIT/인터프리터 최적화 분석.#CPython#Performance#Dict#JIT#Optimization#C2026년 3월 30일댓글 수 로딩 중
[vllm] DFlash - Block Diffusion 기반 Speculative DecodingDFlash 알고리즘을 vLLM에 통합하여 GSM8k에서 acceptance length 6.54를 달성하는 고효율 추론 가속#vllm#Performance2026년 3월 30일댓글 수 로딩 중
[Open WebUI] 공유 채팅 삭제 시 전체 행 대신 ID만 조회하여 메모리 절약delete_shared_chats_by_user_id에서 Chat 전체를 로드하던 쿼리를 Chat.id만 프로젝션하도록 변경하여 JSON 데이터 로드 비용을 제거한 최적화.#Open WebUI#Python#Performance#SQLAlchemy#Query Optimization2026년 3월 30일댓글 수 로딩 중
[Open WebUI] 매 인증 요청마다 실행되는 last_active 업데이트를 단일 UPDATE 쿼리로 최적화SELECT + refresh + Pydantic 직렬화를 수행하던 last_active 업데이트를 단일 UPDATE 문으로 교체하여 매 요청의 DB 부하를 줄인 최적화 분석.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 3월 30일댓글 수 로딩 중
[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다#SGLang#CUDA IPC#Multimodal#Performance2026년 3월 29일댓글 수 로딩 중
[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[Ray Serve] 처리량 최적화 설정 로깅 기능 추가RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력#Ray#Ray Serve#Observability#Performance2026년 3월 28일댓글 수 로딩 중
[llm-compressor] iMatrix Weighted MSE Observer - 중요도 행렬 기반 양자화Importance Matrix(iMatrix)를 활용한 가중 MSE observer로 중요 가중치의 양자화 정밀도를 우선 보존#llm-compressor#Performance2026년 3월 27일댓글 수 로딩 중
[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.#Ray#Ray Data#Performance#PyArrow#Hashing#Schema2026년 3월 27일댓글 수 로딩 중
[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속#Ray#Serialization#Object Store#Performance2026년 3월 27일댓글 수 로딩 중
[Open WebUI] sendMessage에서 중복 getChatList 호출 제거메시지 전송 시 불필요한 사이드바 갱신 DB 쿼리 1회 제거#Open WebUI#Svelte#Frontend Optimization#Performance2026년 3월 25일댓글 수 로딩 중
[Open WebUI] saveChatHandler에서 불필요한 채팅 목록 재조회 제거메시지 저장 때마다 전체 채팅 목록을 다시 불러오던 getChatList 호출을 제거하여 불필요한 네트워크 왕복을 차단한 최적화.#Open WebUI#Svelte#Performance#Frontend#API Call2026년 3월 25일댓글 수 로딩 중
[Ray] 압력 기반 메모리 모니터 도입으로 메모리 관리 고도화cgroup PSI 기반 메모리 압력 감지로 임계값 방식보다 정밀한 메모리 관리#Ray#Performance2026년 3월 24일댓글 수 로딩 중
[cpython] CPython JIT 최적화: Float 연산의 In-place 변환을 통한 성능 향상CPython JIT의 Tier 2 옵티마이저에서 고유 참조된 Float 피연산자를 In-place로 변환하여 메모리 할당을 줄이고 성능을 개선하는 방법.#CPython#JIT#Optimization#Python Internals#Performance2026년 3월 24일댓글 수 로딩 중
[Open WebUI] chatEventHandler의 히스토리 업데이트를 rAF로 배치 처리하기스트리밍 중 불필요한 Svelte 반응형 업데이트를 requestAnimationFrame으로 묶어 성능 개선#Open WebUI#Performance2026년 3월 24일댓글 수 로딩 중
[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.#Ray#Python#Performance#SGLang#LLM Serving2026년 3월 24일댓글 수 로딩 중
[vllm] Thinking Token Hard Limit - 추론 토큰 수 제한으로 리소스 제어reasoning 모델의 thinking token에 hard limit을 설정하여 과도한 연산 소비를 방지하고 예측 가능한 서빙#vllm#Performance2026년 3월 24일댓글 수 로딩 중
[Ray] Actor Pool Map Operator 스케줄러 오버헤드 57% 감소Ray Data의 actor pool 스케줄러에서 protobuf enum 캐싱, dict lookup 최소화, 상수 호이스팅으로 500+ 액터 환경에서 57% 성능 개선을 달성한 PR 분석.#Ray#Ray Data#Actor Pool#Python Optimization#Protobuf#Performance2026년 3월 23일댓글 수 로딩 중
[vllm] ViT Full CUDA Graph - 비전 인코더 CUDA Graph 완전 지원EncoderCudaGraphManager를 도입하여 ViT 인코더의 CUDA Graph 캡처/리플레이를 구현, 비전 모델 추론 가속#vllm#Performance2026년 3월 23일댓글 수 로딩 중
[Ultralytics] detect/obb Loss 계산의 preprocess를 벡터화하여 학습 속도 향상배치별 for 루프를 scatter_add 기반 벡터 연산으로 대체하여 detect/obb Loss의 preprocess 단계를 가속합니다.#Ultralytics#YOLO#PyTorch#Vectorization#Performance2026년 3월 22일댓글 수 로딩 중
[Axolotl] LoRA 커널에 bias, dropout, DoRA, embedding 지원 추가Axolotl의 Triton LoRA 커널을 확장하여 bias 파라미터, dropout, DoRA(Weight-Decomposed LoRA), embedding 레이어를 지원하도록 개선한 분석.#Axolotl#LoRA#DoRA#Triton#LLM Training#Performance#PEFT2026년 3월 22일댓글 수 로딩 중
[Axolotl] Qwen 3.5 모델 Liger 커널 지원 및 fused RMSNorm+Gated 커널 추가Axolotl에 Qwen 3.5 / Qwen 3.5 MoE 모델용 Liger FLCE 커널 지원과 fused RMSNorm+SiLU gate Triton 커널을 추가한 분석.#Axolotl#Liger Kernel#Qwen 3.5#RMSNorm#Triton#LLM Training#Performance2026년 3월 22일댓글 수 로딩 중
[Open WebUI] 메모리 항목 삭제 시 확인 대화상자 추가개별 메모리 삭제에 확인 대화상자를 추가하여 실수 방지 UX 개선#Open WebUI#Svelte#UX#Performance2026년 3월 21일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.#Axolotl#Triton#ScatterMoE#LoRA#Autotune#Performance#GPU2026년 3월 21일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.#Triton#PyTorch#Optimization#Deep Learning#Performance#GPU2026년 3월 19일댓글 수 로딩 중
[Ray] find_gcs_addresses 결과 캐싱으로 프로세스 스캔 비용 제거매번 프로세스 목록을 스캔하던 GCS 주소 탐색을 캐싱하여 성능 개선#Ray#Performance2026년 3월 18일댓글 수 로딩 중
[Loki] Shard Factor 1일 때 Shuffle Shard 생략으로 메모리 50% 절감단일 파티션 할당 시 불필요한 ShuffleShard 호출을 건너뛰어 CPU와 메모리 사용량 대폭 절감.#Grafana Loki#Go#Performance#Memory Optimization#Kafka2026년 3월 18일댓글 수 로딩 중
[llm-compressor] AWQ DDP - 분산 데이터 병렬 AWQ 양자화AWQ 양자화에 DDP(Distributed Data Parallel)를 적용하여 멀티 GPU에서 캘리브레이션 속도 향상#llm-compressor#Performance2026년 3월 18일댓글 수 로딩 중
[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.#Ray#Python#Performance#GPU#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[llm-compressor] Intermediates Cache Prefetch - 중간 결과 프리페칭양자화 캘리브레이션의 중간 결과를 프리페칭하여 레이어 순차 처리의 대기 시간을 감소#llm-compressor#Performance2026년 3월 17일댓글 수 로딩 중
[ray] Ray Serve P99 레이턴시 회귀 수정 — 큐 길이 캐시 미감소 버그큐 길이 캐시가 증가만 하고 감소하지 않아 발생한 P99 레이턴시 회귀를 수정#Python#Ray Serve#Performance#Bug Fix#Distributed Systems2026년 3월 17일댓글 수 로딩 중
[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.#Ray#C++#Performance#OOM#Memory Management2026년 3월 16일댓글 수 로딩 중
[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속#vllm#Performance2026년 3월 16일댓글 수 로딩 중
[Uvicorn] bytes에서 bytearray로 변경하여 HTTP 바디 누적 O(n²) → O(n) 개선요청 바디 누적에서 bytes += 대신 bytearray +=를 사용하여 O(n²) 메모리 복사를 amortized O(1)로 개선한 분석.#Uvicorn#Python#Performance#HTTP#ASGI#Memory2026년 3월 15일댓글 수 로딩 중
[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.#Ray#Python#Performance#Caching#Autoscaler2026년 3월 13일댓글 수 로딩 중
[Loki] 쿼리 엔진 캐시 정확성 테스트 추가결과 캐시의 정확성을 검증하는 통합 테스트로 캐시 히트/미스 시 동일한 결과를 보장.#Grafana Loki#Go#Performance#Testing#Caching2026년 3월 13일댓글 수 로딩 중
[Loki] 포인터 읽기 배치 크기 증가로 인덱스 조회 25% 가속포인터/블룸 읽기 배치를 128에서 8192로 증가시켜 I/O 효율 개선#Grafana Loki#DataObj#Batch Size#Performance2026년 3월 13일댓글 수 로딩 중
[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.#Ray#Python#PyArrow#Performance#Schema#Data Pipeline2026년 3월 10일댓글 수 로딩 중
[Loki] query_range 요청에 캐시 비활성화 헤더 지원 추가Cache-Control 헤더로 query_range 결과 캐시를 비활성화할 수 있도록 개선#Grafana Loki#Cache#HTTP Headers#Performance2026년 3월 9일댓글 수 로딩 중
[Grafana Loki] Thor(V2) 쿼리 엔진에 결과 캐시 미들웨어 추가메트릭, 인스턴트 메트릭, 로그 쿼리 각각에 독립적인 결과 캐시를 추가하여 반복 쿼리의 GCS/오브젝트 스토어 접근을 제거한 성능 최적화 분석.#Grafana Loki#Go#Performance#Cache#Query Engine2026년 3월 9일댓글 수 로딩 중
[Open WebUI] 채팅 메시지 마이그레이션을 스트리밍+배치 처리로 전환하여 메모리 폭발 방지fetchall()로 전체 데이터를 메모리에 로드하고 건별 INSERT하던 마이그레이션을 yield_per 스트리밍과 5000건 단위 배치 INSERT로 전환한 분석.#Open WebUI#Python#Performance#SQLAlchemy#Migration2026년 3월 8일댓글 수 로딩 중
[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram DraftingN-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환#vllm#Performance2026년 3월 7일댓글 수 로딩 중
[Open WebUI] Artifacts 컴포넌트 메모리 누수 수정Svelte store 구독 해제 누락으로 인한 메모리 누수 해결#Open WebUI#Svelte#Memory Leak#Performance2026년 3월 6일댓글 수 로딩 중
[Open WebUI] N+1 쿼리 제거: Function Valves 일괄 조회 최적화모델별 액션마다 개별 DB 쿼리를 던지던 N+1 패턴을 WHERE IN 일괄 조회로 개선한 분석.#Open WebUI#Python#Database#N+1 Query#SQLAlchemy#Performance2026년 3월 6일댓글 수 로딩 중
[Open WebUI] 재귀적 메시지 리스트 생성을 반복문으로 전환하여 O(d²) → O(d) 개선spread 기반 재귀 구현을 push+reverse 반복문으로 변환하여 대화 깊이에 따른 O(d²) 배열 복사를 제거한 분석.#Open WebUI#TypeScript#Performance#Algorithm#Frontend#Svelte2026년 3월 6일댓글 수 로딩 중
[Open WebUI] APIKeyRestrictionMiddleware를 순수 ASGI로 전환하여 스트리밍 오버헤드 제거BaseHTTPMiddleware를 상속하던 API 키 제한 미들웨어를 순수 ASGI 미들웨어로 변환하여, 스트리밍 응답의 모든 청크가 미들웨어 Python 호출 스택을 통과하던 오버헤드를 제거한 PR을 분석합니다.#Open WebUI#ASGI#Performance#Python#Middleware#Starlette2026년 3월 6일댓글 수 로딩 중
[Open WebUI] TTS 문장 파싱을 showCallOverlay 가드로 감싸 불필요한 O(n^2) 연산 제거음성 통화 오버레이가 비활성일 때 매 토큰마다 실행되던 정규식 파싱을 완전히 건너뛰도록 가드를 추가한 최적화 분석.#Open WebUI#Svelte#JavaScript#Performance#TTS#Regex2026년 3월 6일댓글 수 로딩 중
[Open WebUI] 스트리밍 중 동일 콘텐츠의 중복 마크다운 파싱을 캐시로 방지매 애니메이션 프레임마다 실행되던 Markdown 파서에 단순 캐시를 추가하여, 새 토큰이 없을 때 불필요한 파싱을 건너뛰는 최적화 분석.#Open WebUI#Svelte#Performance#Frontend#Markdown2026년 3월 6일댓글 수 로딩 중
[Open WebUI] O(n²) unshift를 O(n) push+reverse로 교체하여 메시지 빌드 최적화Svelte 프론트엔드에서 Array.unshift() 반복 호출로 인한 O(n²) 병목을 push()+reverse()로 개선한 분석.#Open WebUI#JavaScript#Performance#Algorithm#Time Complexity2026년 3월 6일댓글 수 로딩 중
[Open WebUI] KaTeX 유니코드 정규식 사전 컴파일로 마크다운 렌더링 87% 병목 제거Open WebUI에서 KaTeX 수식 감지 시 매번 유니코드 정규식을 컴파일하던 병목을 모듈 로드 시 한 번만 컴파일하도록 변경하고, katexStart 함수를 문자 단위 스캔으로 재작성한 최적화를 분석합니다.#Open WebUI#TypeScript#Performance#Regex#KaTeX#Unicode2026년 3월 5일댓글 수 로딩 중
[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.#Ray#GPU#NIXL#Tensor Transport#Memory Registration#Performance2026년 3월 4일댓글 수 로딩 중
[Ray] 워커 리스너 스레드 최적화: list를 frozenset으로 교체에러 메시지 폴링 루프에서 매번 생성되던 리스트를 frozenset으로 캐싱#Ray#Performance2026년 3월 2일댓글 수 로딩 중
[feast] Feast Redis 온라인 스토어 Protobuf 파싱 최적화불필요한 bytes() 변환 제거와 코드 간소화로 Redis 온라인 스토어 응답 처리 최적화#Python#Redis#Protobuf#Performance#Feature Store2026년 3월 2일댓글 수 로딩 중
[Open WebUI] ChatControls 컴포넌트 메모리 누수 수정onMount/onDestroy 비동기 타이밍 문제를 해결하여 DOM 트리 메모리 누수 방지#Open WebUI#Performance2026년 3월 2일댓글 수 로딩 중
[Ray Serve] Controller 마이크로벤치마크 공식 추가Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.#Ray#Python#Performance#Benchmark#Serve2026년 3월 1일댓글 수 로딩 중
[Open WebUI] Chat.svelte 비동기 onMount 메모리 누수 수정비동기 onMount와 동기 onDestroy 간 타이밍 불일치로 인한 DOM 트리 메모리 누수 해결.#Open WebUI#Svelte#Performance#Memory Leak#Lifecycle2026년 3월 1일댓글 수 로딩 중
[Open WebUI] 사용자 메모리 컬렉션 쿼리에 소유권 검증 추가user-memory 및 file 컬렉션에 대한 접근 권한 검증을 공통 함수로 추출하여 보안 강화.#Open WebUI#Python#Security#Performance#Refactoring2026년 3월 1일댓글 수 로딩 중
[Open WebUI] buildMessages에서 불필요한 객체 스프레드 제거매 프레임마다 생성되던 100개의 불필요한 복사 객체를 제거하여 GC 부담 감소#Open WebUI#Performance2026년 3월 1일댓글 수 로딩 중
[Open WebUI] MultiResponseMessages에 O(1) Fast-path 비교 추가JSON.stringify 전체 비교 전에 content/done 필드를 먼저 체크하여 스트리밍 렌더링 최적화.#Open WebUI#Svelte#Performance#Frontend#Rendering2026년 3월 1일댓글 수 로딩 중
[Open WebUI] JSON.parse(JSON.stringify()) 를 structuredClone으로 교체Chat.svelte의 7곳에서 깊은 복사 방식을 네이티브 structuredClone API로 변경하여 성능 2배 개선.#Open WebUI#Svelte#JavaScript#Performance#Deep Clone2026년 3월 1일댓글 수 로딩 중
[Open WebUI] CodeBlock 토큰 비교 fast-path 최적화JSON.stringify 대신 O(1) 필드 비교로 스트리밍 렌더링 성능 개선#Open WebUI#Svelte#Rendering Optimization#Performance2026년 3월 1일댓글 수 로딩 중
[Open WebUI] CodeEditor에서 EditorView 미해제로 인한 메모리 누수 수정CodeMirror EditorView를 컴포넌트 해제 시 destroy하지 않아 발생하던 메모리 누수를 수정하고, 언어 등록을 모듈 수준으로 분리한 분석.#Open WebUI#Svelte#CodeMirror#Memory Leak#Performance#JavaScript2026년 3월 1일댓글 수 로딩 중
[Open WebUI] UserMessage에서 JSON 직렬화 대신 structuredClone과 빠른 경로 비교 적용JSON.parse/stringify 기반 깊은 복사와 비교를 structuredClone과 content 우선 비교로 대체하여 렌더링 성능을 개선한 최적화.#Open WebUI#Svelte#Performance#Frontend#JavaScript2026년 3월 1일댓글 수 로딩 중
[Open WebUI] 이벤트 이미터에서 DB 호출 비동기화, 중간 상태 저장 제거, elif 체인 적용소켓 이벤트 이미터의 동기 DB 호출을 asyncio.to_thread로 전환하고, 중간 상태 저장을 제거하며, if 체인을 elif로 변경한 3중 최적화 분석.#Open WebUI#Python#asyncio#Performance#Database#WebSocket2026년 3월 1일댓글 수 로딩 중
[Open WebUI] StatusHistory 비교에 O(1) 길이 검사 추가로 직렬화 비용 절감Open WebUI의 스트리밍 응답에서 매 프레임마다 JSON.stringify로 상태 히스토리를 비교하던 것에 배열 길이 사전 검사를 추가하여 불필요한 직렬화를 건너뛰는 최적화를 분석합니다.#Open WebUI#Svelte#Performance#Optimization#Streaming2026년 3월 1일댓글 수 로딩 중
[Open WebUI] JSON.parse(JSON.stringify())를 structuredClone으로 교체객체 딥 복사에 사용되던 JSON 직렬화/역직렬화 패턴을 네이티브 structuredClone API로 교체하고, 불필요한 복사를 제거한 PR을 분석합니다.#Open WebUI#Performance#JavaScript#structuredClone#Deep Copy2026년 3월 1일댓글 수 로딩 중
[Open WebUI] Sidebar 컴포넌트 메모리 누수 수정: onDestroy에서 onMount return으로 전환Svelte의 onDestroy와 onMount 사이의 타이밍 불일치로 인한 이벤트 리스너 메모리 누수를 수정한 분석.#Open WebUI#Svelte#Performance#Memory Leak#Event Listener2026년 3월 1일댓글 수 로딩 중
[Open WebUI] MentionList 컴포넌트 메모리 누수 수정비동기 onMount와 동기 onDestroy의 타이밍 문제로 인한 이벤트 리스너 누수 해결#Open WebUI#Svelte#Memory Leak#Performance2026년 3월 1일댓글 수 로딩 중
[Open WebUI] 스트리밍 중 메시지 리스트 재구성을 프레임당 1회로 제한requestAnimationFrame으로 메시지 리빌드를 쓰로틀링하여 CPU 사용량 감소#Open WebUI#Performance2026년 2월 28일댓글 수 로딩 중
[Open WebUI] Notes.svelte 메모리 누수 수정비동기 onMount와 동기 onDestroy 간의 경쟁 조건을 해소하여 메모리 누수 방지#Open WebUI#Performance2026년 2월 28일댓글 수 로딩 중
[Open WebUI] 스트리밍 중 scrollToBottom을 rAF로 배치 처리하여 불필요한 리플로우 제거스트리밍 토큰마다 호출되던 scrollToBottom을 requestAnimationFrame으로 프레임당 최대 1회로 제한하여 레이아웃 리플로우를 대폭 줄인 최적화 분석.#Open WebUI#Svelte#JavaScript#Performance#Scroll#requestAnimationFrame2026년 2월 28일댓글 수 로딩 중
[Open WebUI] JSON.parse(JSON.stringify()) 대신 structuredClone으로 딥 카피 최적화스트리밍 중 매 토큰마다 실행되는 메시지 딥 카피를 structuredClone()으로 교체하여 문자열 직렬화 오버헤드를 제거한 분석.#Open WebUI#JavaScript#Performance#Svelte2026년 2월 28일댓글 수 로딩 중
[Open WebUI] MessageInput 컴포넌트 메모리 누수 수정: 비동기 이벤트 리스너 생명주기 관리Svelte 컴포넌트에서 onMount 비동기 실행과 onDestroy 동기 실행의 타이밍 불일치로 발생하는 이벤트 리스너 메모리 누수를 수정한 PR을 분석합니다.#Open WebUI#Memory Leak#Svelte#Event Listener#Performance2026년 2월 28일댓글 수 로딩 중
[Open WebUI] Tooltip 컴포넌트의 tippy 인스턴스 메모리 누수 수정 및 타입 정의 개선요소 변경 시 이전 tippy 인스턴스가 DOM에 잔존하던 메모리 누수를 destroy 로직 추가로 해결하고, TypeScript 타입을 정밀하게 적용한 분석.#Open WebUI#Svelte#Performance#Memory Leak#TypeScript2026년 2월 28일댓글 수 로딩 중
[Ray] RLlib 커넥터와 배치 유틸리티에 ndarray 빠른 경로 추가tree 순회를 건너뛰는 numpy 배열 최적화로 학습 핫패스 속도 개선#Ray#Performance2026년 2월 27일댓글 수 로딩 중
[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.#Ray#Ray Data#Resource Allocation#Pipeline Optimization#Throughput#Performance2026년 2월 27일댓글 수 로딩 중
[Open WebUI] KaTeX 모듈 import를 싱글턴으로 캐싱하여 렌더링 최적화Open WebUI에서 수학 수식이 포함된 메시지마다 KaTeX를 반복 import하던 비효율을 Svelte의 context='module'을 활용한 싱글턴 패턴으로 해결한 최적화를 분석합니다.#Open WebUI#Svelte#KaTeX#Performance#Module Cache2026년 2월 26일댓글 수 로딩 중
[Open WebUI] ResponseMessage에서 JSON.stringify 비교를 O(1) fast-path로 우회스트리밍 중 매 토큰마다 발생하는 2회의 O(n) JSON.stringify 호출을 content/done 필드 비교로 우회한 분석.#Open WebUI#JavaScript#Performance#Svelte#Streaming2026년 2월 26일댓글 수 로딩 중
[vllm] --performance-mode: 워크로드별 최적화 프로파일balanced, interactivity, throughput 3가지 모드로 CUDA Graph 캡처 전략과 배칭 동작을 자동 조정#vllm#Performance2026년 2월 26일댓글 수 로딩 중
[Loki] TSDBIndex.GetChunkRefs에서 불필요한 라벨 조회 제거청크 참조만 필요한 경우 라벨 디코딩을 건너뛰어 할당 30% 감소#Grafana Loki#TSDB#Index Optimization#Performance2026년 2월 25일댓글 수 로딩 중
[Loki] TSDB 풀에 전체 슬라이스를 올바르게 반환하여 메모리 할당 99.6% 감소defer 시점의 슬라이스 캡처 버그를 수정하여 오브젝트 풀 효과 복원#Loki#Performance2026년 2월 25일댓글 수 로딩 중
[Open WebUI] get_tools()에서 빈 tool_ids 조기 반환 최적화tool_ids가 비어있을 때 불필요한 DB 쿼리를 건너뛰는 가드 절 추가#Open WebUI#Python#Database#Performance2026년 2월 25일댓글 수 로딩 중
[Ray Serve] Direct Ingress 최적화: 상수 순서 정리 및 빈 프록시 조기 반환Ray Serve에서 HAProxy 관련 상수 초기화 순서를 수정하고 빈 proxy handles 순회를 방지하는 간결한 최적화 PR 분석.#Ray#Ray Serve#Direct Ingress#HAProxy#Performance#Early Return2026년 2월 25일댓글 수 로딩 중
[Ray RLlib] space_utils.batch()에서 np.stack 대신 사전 할당 배열로 연결 속도 개선수백~수천 개의 배열을 배치 처리할 때 np.stack 대신 np.empty로 사전 할당 후 복사하는 방식으로 전환하여 불필요한 연결 오버헤드를 제거한 최적화 분석.#Ray#Python#Performance#NumPy#RLlib2026년 2월 25일댓글 수 로딩 중
[Loki] 싱크에 쓰기 전 레코드 배치 처리로 라운드트립 감소개별 레코드 전송을 배치로 묶어 싱크 쓰기 대기 시간을 크게 줄임#Loki#Performance2026년 2월 24일댓글 수 로딩 중
[Loki] 빈 레이블 제거에 더 단순한 함수 사용labels.NewBuilder().Labels() 대신 WithoutEmpty()로 불필요한 할당 제거#Loki#Performance2026년 2월 24일댓글 수 로딩 중
[Ray] 다중 gRPC 연결로 오브젝트 전송 처리량 향상GRPC_ARG_USE_LOCAL_SUBCHANNEL_POOL 옵션으로 오브젝트 매니저의 gRPC 연결을 다중화하여 전송 대역폭을 확대한 분석.#Ray#C++#Performance#gRPC#Networking2026년 2월 24일댓글 수 로딩 중
[Loki] 쿼리 엔진 정합성 테스트 병렬 실행으로 CI 시간 15% 단축Grafana Loki의 구/신 쿼리 엔진 정합성 테스트에서 순차 실행되던 두 엔진 쿼리를 errgroup을 활용해 병렬로 실행하여 전체 테스트 시간을 15% 줄인 최적화를 분석합니다.#Grafana Loki#Go#Testing#Performance#Parallelism#errgroup2026년 2월 24일댓글 수 로딩 중
[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.#Ray#Python#Performance#Deadlock#Memory Management#Data Pipeline2026년 2월 24일댓글 수 로딩 중
[Grafana Loki] 오브젝트 스토어 클라이언트에 요청 레이턴시 히스토그램 메트릭 추가기존 Thanos 클라이언트의 e2e 메트릭과 별개로, 요청 헤징 후 실제 라운드트립 레이턴시를 측정하는 네이티브 히스토그램 메트릭을 추가한 분석.#Grafana Loki#Go#Performance#Observability#Prometheus2026년 2월 24일댓글 수 로딩 중
[Grafana Loki] 쿼리 엔진 aggregator의 자료구조를 개선하여 38% 성능 향상groupState에서 라벨 데이터를 분리하고, 라벨 목록을 맵으로 변경하며, BuildRecord의 선형 탐색을 제거하여 메트릭 쿼리 실행 시간을 38% 단축한 분석.#Grafana Loki#Go#Performance#Query Engine#Data Structure#Aggregation2026년 2월 24일댓글 수 로딩 중
[Grafana Loki] 블룸 필터 캐시를 맵으로 교체하여 운영 복잡도 제거ingest-limits-frontend의 스트림 캐시에서 블룸 필터를 Go map으로 교체하여, 사전 크기 설정 불필요와 false positive 제거를 동시에 달성한 분석.#Grafana Loki#Go#Performance#Cache#Data Structure2026년 2월 23일댓글 수 로딩 중
[Open WebUI] 메시지 전송마다 발생하는 불필요한 채팅 JSON 역직렬화 2회 제거메시지 전송 시 소유권 확인과 폴더 조회를 위해 전체 채팅 JSON을 2번 불필요하게 역직렬화하던 문제를 EXISTS 쿼리와 단일 컬럼 조회로 해결한 PR 분석.#Open WebUI#Database#SQLAlchemy#Query Optimization#Performance2026년 2월 21일댓글 수 로딩 중
[faster-qwen3-tts] 공식 Qwen3-TTS 기반으로 포팅 및 벤치마크 대폭 향상커뮤니티 streaming fork에서 공식 Qwen3-TTS 저장소로 기반을 전환하고, repetition penalty 벡터화로 RTF 5.56 달성#faster-qwen3-tts#TTS#CUDA Graphs#Performance2026년 2월 20일댓글 수 로딩 중
[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.#Grafana Loki#Go#Performance#Encoding#Benchmark#Data Object2026년 2월 20일댓글 수 로딩 중
[Open WebUI] 채팅 목록 조회 시 불필요한 전체 JSON 로딩 제거Open WebUI의 고정/보관/공유 채팅 목록 API에서 전체 ChatModel을 로딩하던 것을 with_entities()로 필요한 컬럼만 조회하도록 변경하여 DB 부하와 메모리 사용량을 줄인 최적화를 분석합니다.#Open WebUI#Python#SQLAlchemy#Database#Performance#Query Optimization2026년 2월 19일댓글 수 로딩 중
[Open WebUI] 채팅 제목 조회 시 전체 대화 로드 대신 title 컬럼만 직접 쿼리get_chat_title_by_id에서 전체 ChatModel을 로드하던 것을 Chat.title 컬럼만 조회하도록 변경하여 DB 부하를 줄인 분석.#Open WebUI#Python#Performance#Database#SQLAlchemy2026년 2월 19일댓글 수 로딩 중
[Open WebUI] O(n²) 시간 복잡도 메시지 리스트 생성 버그 수정list.insert(0) 대신 append+reverse로 변경하여 대화 기록 구성의 O(n²) 병목을 O(n)으로 개선한 분석.#Open WebUI#Python#Performance#Algorithm#Time Complexity2026년 2월 19일댓글 수 로딩 중
[Open WebUI] 공유 채팅 목록에서 불필요한 JSON 역직렬화를 제거하여 응답 속도 개선전체 Chat 행을 로드하던 공유 채팅 목록 API를 컬럼 프로젝션으로 전환하여, 대용량 대화 JSON 역직렬화를 완전히 제거한 최적화 분석.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 2월 19일댓글 수 로딩 중
[Grafana Loki] 범위 집계를 병렬 파티션으로 푸시다운하여 쿼리 처리 최적화결합법칙/교환법칙이 성립하는 집계 연산을 parallelPushdown 최적화에 적용하여, 네트워크 전송량 감소와 파이프라인 병목 해소를 동시에 달성한 분석.#Grafana Loki#Go#Performance#Query Optimization#Parallel Processing2026년 2월 19일댓글 수 로딩 중
[feast] Feast 성능 최적화: 엔티티 키 직렬화 Hot Path 2.4배 개선하기Feast의 온라인 스토어 성능을 좌우하는 엔티티 키 직렬화 로직을 Fast Path 도입과 memoryview 활용으로 최대 141% 개선한 사례를 분석합니다.#Python#Performance#Feast#Optimization#Zero-copy2026년 2월 19일댓글 수 로딩 중
[Feast] Feast 엔티티 키 직렬화 핫패스 최적화single-entity fast path와 memoryview zero-copy 슬라이싱으로 직렬화/역직렬화 성능을 개선#Feast#Feature Store#Serialization#Performance2026년 2월 19일댓글 수 로딩 중
[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.#Ray#RLlib#Python#Performance#Reinforcement Learning#Optimization2026년 2월 19일댓글 수 로딩 중
[Ray Core] Memory Monitor의 OS별 조건부 컴파일 패턴 적용메모리 모니터를 인터페이스 분리 + OS별 빌드로 리팩토링하여 유지보수성과 확장성 개선.#Ray#C++#Performance#Memory Management#Architecture2026년 2월 18일댓글 수 로딩 중
[pydantic-ai] Temporal/DBOS MCP 서버에서 매번 도구 목록을 다시 가져오는 문제 수정Temporal과 DBOS의 MCP 래퍼에서 캐시된 도구 정의를 활용하여 불필요한 MCP 서버 왕복을 제거한 사례를 분석합니다.#pydantic-ai#MCP#DBOS#Temporal#Caching#Performance2026년 2월 19일댓글 수 로딩 중
[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.#Ray#Python#Refactoring#Cache#Performance#Data Pipeline2026년 2월 18일댓글 수 로딩 중
[Grafana Loki] 프론트엔드 캐시를 리팩터링하고 캐시된 스트림을 요청에서 필터링acceptedStreamsCache로 캐시를 분리하고, 이미 승인된 스트림을 요청에서 제거하여 백엔드 부하를 줄이며, 블룸 필터 메트릭을 추가한 분석.#Grafana Loki#Go#Performance#Bloom Filter#Cache#Metrics2026년 2월 18일댓글 수 로딩 중
[vllm] Decode Context Parallel - GPU Model Runner V2용 디코드 단계 컨텍스트 병렬화디코드 단계에서 긴 컨텍스트의 KV cache를 여러 GPU에 분산하여 메모리 효율과 throughput을 동시 개선#vllm#Performance2026년 2월 18일댓글 수 로딩 중
[llm-compressor] DataLoader 최적화와 Single-pass Weight CalibrationDataLoader 옵션 확장과 단일 패스 가중치 캘리브레이션으로 양자화 파이프라인 속도와 유연성 개선#llm-compressor#Performance2026년 2월 18일댓글 수 로딩 중
[Ray] memory_full_info 호출 제거로 ML 학습 성능 저하 문제 해결Ray에서 프로세스 메모리 모니터링 시 비용이 큰 memory_full_info 호출을 제거하고, memory_info로부터 USS를 근사 추정하여 ML 학습 중 성능 저하를 해결한 최적화를 분석합니다.#Ray#Python#Performance#Memory Monitoring#psutil#ML Training2026년 2월 18일댓글 수 로딩 중
[pydantic-ai] Depot 러너와 inline_snapshot 우회로 CI 성능 대폭 개선Depot 4코어 러너 도입과 inline_snapshot 경량 스텁으로 pytest-xdist 워커 초기화를 크게 가속화한 사례를 분석합니다.#pydantic-ai#CI/CD#Performance#GitHub Actions#Testing2026년 2월 17일댓글 수 로딩 중
[pydantic-ai] 로컬 테스트 성능 개선: coverage 분리와 fixture 최적화make test에서 coverage를 분리하고 module-scope fixture로 모델 로딩 횟수를 줄여 로컬 개발 테스트 속도를 개선한 사례를 분석합니다.#pydantic-ai#Testing#Performance#Developer Experience#Makefile2026년 2월 17일댓글 수 로딩 중
[Loki] Bloom Filter로 ExceedsLimits 요청의 백엔드 트래픽 대폭 감소이미 허용된 스트림을 블룸 필터로 캐싱하여 불필요한 RPC 호출 제거#Loki#Performance2026년 2월 17일댓글 수 로딩 중
[Ray Data] 클러스터 오토스케일러에 논리 메모리 사용률 지표를 추가하여 스케일링 정확도 향상CPU/GPU/Object Store 메모리만 감시하던 ResourceUtilizationGauge에 논리 메모리를 추가하여, 메모리 부족 시에도 올바르게 스케일업하도록 개선한 분석.#Ray#Python#Performance#Autoscaler#Observability2026년 2월 17일댓글 수 로딩 중
[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.#Ray#RLlib#Performance#Python#Connector#Reinforcement Learning2026년 2월 13일댓글 수 로딩 중
[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.#Ray#Ray Serve#Performance#Scheduling#Python#Optimization2026년 2월 13일댓글 수 로딩 중
[Loki] Rate Batcher 도입으로 UpdateRates RPC 호출 대폭 감소O(D*P)/초의 RPC를 O(P)/30초로 배치하여 프론트엔드 부하 최소화#Loki#Performance2026년 2월 12일댓글 수 로딩 중
[CPython] PEP 810 -- CPython에 명시적 Lazy Import 구현lazy 소프트 키워드로 import 시점을 지연시켜 Python 시작 시간을 단축하는 PEP 810 구현 분석#Python#CPython#Performance#Import System2026년 2월 12일댓글 수 로딩 중
[Open WebUI] 모델 캐시 활용으로 TTFT(첫 토큰 도달 시간) 대폭 단축매 채팅 요청마다 모든 백엔드에서 모델 목록을 가져오던 get_all_models() 호출을 캐시 우선 조회로 변경하여 TTFT를 크게 개선한 PR을 분석합니다.#Open WebUI#Performance#Python#TTFT#Caching2026년 2월 12일댓글 수 로딩 중
[Open WebUI] Redis 설정 조회 캐싱으로 /api/models 응답 속도 개선Open WebUI에서 매 루프 반복마다 Redis에서 설정값을 읽어오던 패턴을 로컬 변수 캐싱으로 변경하여 수백 번의 불필요한 Redis 라운드트립을 제거한 PR을 분석합니다.#Open WebUI#Redis#Performance#Python#API Optimization2026년 2월 11일댓글 수 로딩 중
[Grafana Loki] cmp.Diff 대신 cmp.Equal로 상태 비교를 단순화Kubernetes 컨트롤러에서 변경 감지를 위해 diff 문자열 생성 후 빈 문자열 비교하던 것을 Equal로 교체한 최적화 분석.#Grafana Loki#Go#Kubernetes#Operator#Performance2026년 2월 11일댓글 수 로딩 중
[Open WebUI] Knowledge 파일 배치 추가 시 N+1 쿼리 제거파일 배치 추가 엔드포인트에서 개별 쿼리를 IN 절 단일 쿼리로 변경하여 N+1 문제 해결.#Open WebUI#Python#Performance#Database#N+1 Query2026년 2월 9일댓글 수 로딩 중
[Ray Serve] stop_replicas()의 pop-all/re-add 사이클 제거전체 replica를 pop했다 re-add하는 방식 대신, ID set 기반 단일 패스 remove로 최대 6배 속도 향상.#Ray#Python#Performance#Serve#Algorithm2026년 2월 9일댓글 수 로딩 중
[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.#Ray#Python#Performance#Serve#Caching2026년 2월 9일댓글 수 로딩 중
[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.#Ray#Python#Performance#Cache#Distributed Systems2026년 2월 9일댓글 수 로딩 중
[Loki] memory.Bitmap 슬라이싱 지원: 비정렬 오프셋 처리Loki의 memory.Bitmap에 슬라이싱 기능을 추가하고, 워드 경계에 정렬되지 않은 비트맵의 연산을 지원하도록 개선한 PR 분석.#Grafana Loki#Go#Bitmap#Memory#Data Structure#Performance2026년 2월 6일댓글 수 로딩 중
[Loki] 대소문자 무시 정규식을 바이너리 연산자로 최적화정규식 엔진 대신 바이트 단위 대소문자 무시 비교 연산자를 도입하여 case-insensitive 매칭 성능을 대폭 개선한 분석.#Loki#Go#Performance#Regex#Query Engine2026년 2월 5일댓글 수 로딩 중
[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합#vllm#Performance2026년 2월 5일댓글 수 로딩 중
[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.#Ray#Python#Performance#Operator Fusion#Data Pipeline2026년 2월 4일댓글 수 로딩 중
[Loki] 인덱스 빌더에서 오브젝트 다운로드 시 슬라이스 사전 할당으로 메모리 효율화io.ReadAll 대신 오브젝트 크기 기반 사전 할당으로 인덱스 빌드 시 불필요한 메모리 재할당을 제거한 분석.#Loki#Go#Performance#Memory Allocation#Object Storage2026년 2월 2일댓글 수 로딩 중
[triton] Reduce 커널에 Unpadded Batch Size 핸들링 추가Triton Kernels의 reduce 커널에 unpadded batch size를 지원하여 패딩된 배치에서 불필요한 연산을 건너뛰도록 개선한 PR 분석.#Triton#TritonKernels#Reduce#Padding#BatchSize#Performance2026년 1월 30일댓글 수 로딩 중
[uvloop] uvloop의 SSL 성능 최적화: SSLWantReadError 비용 줄이기SSLWantReadError 예외 발생을 최소화하여 SSL 읽기 성능을 개선한 uvloop의 최적화 사례를 분석합니다.#uvloop#Python#SSL#Performance#Optimization2026년 1월 30일댓글 수 로딩 중
[pytorch] PyTorch CUDA 메모리 스냅샷 최적화 — 트레이스 선택적 포함include_traces 옵션으로 CUDA 메모리 스냅샷의 트레이스 수집을 건너뛰어 성능을 대폭 개선한다#PyTorch#CUDA Memory#Performance#Memory Profiling2026년 1월 30일댓글 수 로딩 중
[uvloop] uvloop의 SSL 성능 최적화: Python Vectorcall 우회하기Python의 vectorcall 인터페이스 대신 C 레벨의 직접 호출과 인라인화를 통해 SSLProtocol 성능을 개선한 사례 분석.#Python#uvloop#Performance#Optimization#SSL2026년 1월 30일댓글 수 로딩 중
[Open WebUI] 필터 함수 배치 조회로 N+1 쿼리 제거N개의 개별 DB 쿼리를 1개의 IN 쿼리로 통합하여 성능 개선#Open WebUI#Database#N+1 Query#Performance2026년 1월 29일댓글 수 로딩 중
[Loki] memory/columnar API를 Go 관용구에 맞게 리팩터링Make* 생성자를 New*로 통일하여 Go 표준 네이밍 컨벤션 준수#Loki#Performance2026년 1월 29일댓글 수 로딩 중
[Open WebUI] 메모리 업데이트 후 불필요한 재조회 쿼리 제거update_memory_by_id에서 커밋 후 별도 세션으로 다시 조회하던 패턴을 db.refresh로 대체하여 쿼리 수를 절반으로 줄인 최적화.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 1월 29일댓글 수 로딩 중
[Open WebUI] DB 쿼리 최적화: 루프 삭제를 벌크 연산으로 교체Open WebUI의 functions, feedbacks, groups 모델에서 불필요한 재조회와 루프 기반 삭제를 제거하여 데이터베이스 쿼리를 최적화한 PR 분석.#Open WebUI#Database#SQLAlchemy#Bulk Delete#Performance2026년 1월 29일댓글 수 로딩 중
[Open WebUI] SCIM 그룹 변환에서 N+1 쿼리를 배치 조회로 제거SCIM group_to_scim 함수에서 멤버마다 개별 쿼리를 보내던 N+1 문제를 단일 배치 조회로 해결한 최적화 분석.#Open WebUI#Python#Performance#N+1 Query#SCIM2026년 1월 29일댓글 수 로딩 중
[Grafana Loki] JSON 파서에서 bytes.Runes() 할당을 in-place UTF-8 디코딩으로 제거쿼리 엔진 워커의 JSON 키 정제 과정에서 매번 새 슬라이스를 할당하던 bytes.Runes()를 utf8.DecodeRune으로 교체하고, JSON 파서 재사용과 요청 키 프리필터링을 추가한 최적화 분석.#Grafana Loki#Go#Performance#Memory Allocation#JSON Parser2026년 1월 29일댓글 수 로딩 중
[Open WebUI] users.py의 5개 업데이트 메서드에서 중복 SELECT 쿼리 제거UPDATE 후 별도 SELECT로 재조회하던 패턴을 fetch-modify-refresh 패턴으로 통일하여 쿼리 수를 절반으로 줄인 최적화.#Open WebUI#Python#Performance#SQLAlchemy#Database2026년 1월 29일댓글 수 로딩 중
[uvloop] uvloop 성능 최적화: Python C API를 활용한 Context 진입/탈출 개선Python의 context.run() 대신 C API를 직접 호출하여 오버헤드를 줄이고 성능을 개선한 사례를 분석합니다.#uvloop#Python#Performance#Cython#C-API2026년 1월 28일댓글 수 로딩 중
[Loki] 인덱스 빌더 크기 추정 최적화: 반복 계산 제거로 97% 성능 개선Grafana Loki의 데이터 객체 인덱스 빌더에서 매번 모든 테넌트를 순회하며 크기를 계산하던 방식을 증분 추적으로 변경하여 97%의 성능 향상을 달성한 PR을 분석합니다.#Grafana Loki#Performance#Go#Index Builder#Optimization2026년 1월 28일댓글 수 로딩 중
[Open WebUI] asyncio.gather로 이미지 로딩 병렬화하여 지연시간 단축Open WebUI의 image_edits 엔드포인트에서 여러 이미지를 순차 로딩하던 것을 asyncio.gather를 활용한 병렬 로딩으로 변경하여 지연시간을 크게 줄인 최적화를 분석합니다.#Open WebUI#Python#asyncio#Performance#Parallelism2026년 1월 27일댓글 수 로딩 중
[Open WebUI] 검색 쿼리 디바운스 적용으로 불필요한 DB 요청 감소Open WebUI의 여러 관리 페이지와 검색 기능에서 키 입력마다 발생하던 DB 쿼리를 200~300ms 디바운스로 묶어 백엔드 부하를 줄인 최적화를 분석합니다.#Open WebUI#Svelte#Performance#Debounce#Database#UX2026년 1월 27일댓글 수 로딩 중
[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.#Triton#CUDA#HIP#Runtime#Performance2026년 1월 21일댓글 수 로딩 중
[Loki] Thor 쿼리 엔진 메모리 최적화 Part 3: 불필요한 스키마 재생성 제거Arrow 스키마 재생성과 필드 복사를 제거하여 쿼리 엔진의 메모리 할당을 추가 절감한 분석.#Loki#Go#Performance#Memory Allocation#Apache Arrow2026년 1월 21일댓글 수 로딩 중
[Loki] Partition Ring 셔플 샤딩 캐시 크기를 설정 플래그로 추출하드코딩된 셔플 샤딩 캐시 크기를 런타임 설정 플래그로 추출하여 테넌트 수에 따라 조정 가능하게 만든 분석.#Loki#Go#Performance#Configuration#Caching2026년 1월 21일댓글 수 로딩 중
[Loki] Thor 쿼리 엔진 메모리 최적화 Part 2: 식별자 캐싱과 빌더 ReserveFQN 파싱 결과를 캐싱하고 Arrow 빌더에 Reserve를 적용하여 실행 시간 7%, 메모리 할당 12% 절감한 분석.#Loki#Go#Performance#Memory Allocation#Caching2026년 1월 21일댓글 수 로딩 중
[Triton] Proton 프로파일러에서 불필요한 lock 추가 제거PhaseStore를 분리하고 atomic 연산을 활용하여 프로파일링 오버헤드를 줄이는 lock 최적화#Triton#Proton#Profiler#Performance#Concurrency2026년 1월 21일댓글 수 로딩 중
[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.#Triton#Compiler#Optimization#LLVM#Performance2026년 1월 20일댓글 수 로딩 중
[Loki] 부모-자식 메모리 할당자 도입으로 계층적 메모리 수명 관리쿼리 엔진의 메모리 할당자에 부모-자식 관계를 추가하여 할당/해제 수명을 계층적으로 관리하는 최적화 분석.#Loki#Go#Performance#Memory Management#Allocator2026년 1월 20일댓글 수 로딩 중
[Grafana Loki] dataobj pageReader의 메모리 할당을 Reclaim과 Bitmap 직접 전달로 최적화pageReader.read()에서 Reset 대신 Reclaim을 사용하고, presence 비트맵을 직접 전달하여 불필요한 할당을 줄인 dataobj 읽기 경로 최적화 분석.#Grafana Loki#Go#Performance#Memory Allocation#Data Object2026년 1월 20일댓글 수 로딩 중
[Loki] Bitmap 디코더 최적화: 처리량 93.5% 개선Loki dataobj의 bitmap 디코더를 boolean 전용으로 특수화하고 memory.Bitmap으로 전환하여 처리량을 93.5% 개선한 PR 분석.#Grafana Loki#Go#Bitmap#Decoder#Performance#Data Object2026년 1월 19일댓글 수 로딩 중
[vllm] Draft Model 기반 Speculative Decoding 지원별도의 소형 draft 모델을 활용한 speculative decoding을 vLLM V1 엔진에 공식 통합#vllm#Performance2026년 1월 19일댓글 수 로딩 중
[llm-compressor] Memoryless Observers - 메모리 효율적 가중치 관찰자양자화 캘리브레이션의 가중치 관찰자를 memoryless 방식으로 전환하여 메모리 사용량 대폭 감소#llm-compressor#Performance2026년 1월 19일댓글 수 로딩 중
[Loki] memory 서브패키지 통합으로 코드 구조 개선memory/bitmap, memory/buffer를 memory 패키지로 통합하여 중복 제거#Grafana Loki#Go#Refactoring#Performance2026년 1월 16일댓글 수 로딩 중
[Ray Serve] 레플리카 라우팅 데이터 구조 최적화: O(n) 스캔을 O(1) 딕셔너리 룩업으로 교체Ray Serve의 요청 라우터에서 O(n) 선형 스캔을 O(1) 딕셔너리 인덱스로 교체하고, 해시 캐싱과 메트릭 쓰로틀링을 추가한 종합 최적화 분석.#Ray#Python#Performance#Data Structures#Serving2026년 1월 16일댓글 수 로딩 중
[Loki] Delta Decoder 최적화로 3배 처리량 개선streamio.Reader 인터페이스 제거와 직접 바이트 슬라이스 접근으로 delta decoder 성능 60% 향상.#Grafana Loki#Go#Performance#Encoding#Data Pipeline2026년 1월 15일댓글 수 로딩 중
[triton] moveUpTranspose 최적화 제거 PR의 Revert - 회귀 방지일부 워크로드에서 성능 회귀를 유발한 moveUpTranspose 제거를 되돌려, TransposeOp 재배치 최적화를 복원한 PR을 분석합니다.#Triton#AMD#Revert#Performance#Regression2026년 1월 15일댓글 수 로딩 중
[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.#Grafana Loki#Go#Performance#Decoder#Memory Optimization#Benchmark2026년 1월 15일댓글 수 로딩 중
[Triton] Proton에서 선택적 커널 메타데이터 기록 및 커스텀 메트릭 지원LaunchHook에 include/exclude 필터와 임의 메트릭 지원을 추가하여 프로파일링 유연성 향상#Triton#Proton#Profiler#Metadata#Performance2026년 1월 15일댓글 수 로딩 중
[Loki] Plain 디코더 벤치마크 추가 및 코드 개선Loki dataobj의 plain bytes 디코더에 체계적인 벤치마크를 추가하고, 불필요한 조건 체크를 제거하여 디코딩 성능을 개선한 PR 분석.#Grafana Loki#Go#Benchmarking#Decoder#Data Object#Performance2026년 1월 14일댓글 수 로딩 중
[Grafana Loki] pkg/dataobj를 위한 실험적 arena 스타일 메모리 패키지 도입메모리 영역을 회수하고 재사용할 수 있는 arena 스타일 Allocator와 비트맵/버퍼 유틸리티를 새로 도입한 분석.#Grafana Loki#Go#Memory Management#Arena Allocator#Performance#Bitmap2026년 1월 14일댓글 수 로딩 중
[Grafana Loki] 델타 디코더 벤치마크 개선 및 Decode 메서드 성능 측정 추가단일 값 decode 벤치마크를 배치 단위 Decode 메서드 벤치마크로 재작성하고, 처리량 메트릭과 errors.Is 최적화를 추가한 분석.#Grafana Loki#Go#Performance#Benchmark#Encoding2026년 1월 14일댓글 수 로딩 중
[Open WebUI] 메모리 리셋 API에서 커넥션 풀 고갈을 방지하는 치명적 버그 수정POST /reset 엔드포인트가 100개 이상의 병렬 임베딩 호출 동안 DB 커넥션을 점유하여 전체 앱이 마비되던 문제를 수정한 분석.#Open WebUI#Python#SQLAlchemy#Connection Pool#asyncio#Performance2026년 1월 11일댓글 수 로딩 중
[Open WebUI] 텔레메트리에서 효율적인 COUNT 쿼리로 커넥션 풀 고갈 방지전체 테이블 로드 대신 COUNT(*) 쿼리를 사용하여 DB 연결 풀 고갈 해결#Open WebUI#Performance2026년 1월 10일댓글 수 로딩 중
[vllm] MORI KV Connector - ROCm 기반 Prefill-Decode DisaggregationROCm 플랫폼에서 MORI 라이브러리를 활용한 KV cache 전송 커넥터로 PD disaggregation 지원#vllm#Performance2026년 1월 9일댓글 수 로딩 중
[PyTorch] MPS mul 성능 회귀 수정Apple MPS 백엔드의 broadcast/scalar 연산에 전용 Metal 커널을 추가하여 성능 회귀를 수정한다#PyTorch#MPS#Metal#Performance2026년 1월 9일댓글 수 로딩 중
[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원vLLM에 gRPC 서버 엔트리포인트를 추가하여 REST API 대비 낮은 latency와 높은 throughput의 통신 제공#vllm#Performance2026년 1월 8일댓글 수 로딩 중
[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.#Ray#Python#Performance#Benchmark#Training2026년 1월 8일댓글 수 로딩 중
[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화#Triton#NVIDIA#Performance#WGMMA#Pipelining2026년 1월 7일댓글 수 로딩 중
[Loki] 새 쿼리 엔진 메모리 할당 최적화: 객체 수 32% 감소Loki의 새 쿼리 엔진에서 Arrow 빌더 사전 할당, 문자열 캐싱, 슬라이스 재사용 등으로 메모리 할당 객체 수를 32% 줄인 PR 분석.#Grafana Loki#Go#Memory Allocation#Query Engine#Apache Arrow#Performance2026년 1월 7일댓글 수 로딩 중
[triton] Proton의 Runtime과 Metric 상관관계 단순화로 오버헤드 감소Proton 프로파일러의 Data/Metric 인터페이스를 재설계하여 이중 잠금과 불필요한 조회를 제거하고 프로파일링 오버헤드를 줄인 사례를 분석합니다.#Triton#Proton#Profiling#Performance#Refactoring2026년 1월 4일댓글 수 로딩 중
[cpython] gh-124951: base64 인코딩/디코딩 2~3배 속도 향상 — CPU 파이프라이닝 최적화lookup table 정렬과 loop-carried dependency 제거로 base64 처리 속도를 2~3배 개선#Python#CPython#Performance#base64#C2026년 1월 2일댓글 수 로딩 중
[Open WebUI] mammoth 라이브러리 동적 로딩으로 페이지 초기 로드 301KB 절감DOCX 파일 처리를 위한 mammoth 라이브러리를 정적 import에서 동적 import로 변경하여, 초기 번들 크기를 301KB 줄인 PR을 분석합니다.#Open WebUI#Performance#Bundle Size#Dynamic Import#TypeScript2025년 12월 30일댓글 수 로딩 중
[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상#vllm#Performance2025년 12월 29일댓글 수 로딩 중
[Open WebUI] xlsx 라이브러리 동적 로딩으로 번들 868KB 감소정적 import를 dynamic import로 전환하여 초기 페이지 로딩 속도 개선#Open WebUI#Bundle Size#Dynamic Import#Performance2025년 12월 28일댓글 수 로딩 중
[Open WebUI] YAML 라이브러리 동적 로딩으로 번들 130KB 감소정적 import 대신 동적 import()로 yaml 라이브러리를 필요 시에만 로드하여 초기 번들 크기 절감.#Open WebUI#TypeScript#Performance#Bundle Size#Code Splitting2025년 12월 28일댓글 수 로딩 중
[pydantic-ai] 테스트 스위트에서 불필요한 asyncio.sleep 제거Google 파일 검색, OpenAI 응답 모델 등 다수 테스트에서 불필요한 asyncio.sleep과 VCR 마커를 제거하여 테스트 속도를 개선한 사례를 분석합니다.#pydantic-ai#Testing#Performance#asyncio#Cleanup2025년 12월 28일댓글 수 로딩 중
[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정#vllm#Performance2025년 12월 24일댓글 수 로딩 중
[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다#Triton#AMD#AsyncCopy#GPU Pipeline#Performance2025년 12월 23일댓글 수 로딩 중
[Triton] AMD RDNA에서 matmul_ogs 설정 최적화 — 최대 46% 성능 향상RDNA3/4 GPU에서 block_m/block_n/block_k 설정을 조정하여 레지스터 스필링 해결#Triton#AMD#RDNA#Performance#Kernel Tuning2025년 12월 22일댓글 수 로딩 중
[triton] Triton에서 cuBLAS를 활용한 mxfp8 및 nvfp4 블록 스케일 행렬 곱셈 벤치마킹Triton의 블록 스케일 행렬 곱셈 성능을 검증하기 위해 cuBLAS 기반의 베이스라인을 도입하고 튜토리얼을 개선했습니다.#Triton#cuBLAS#mxfp8#nvfp4#Performance2025년 12월 19일댓글 수 로딩 중
[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.#Grafana Loki#Go#Performance#Memory Management#Caching2025년 12월 19일댓글 수 로딩 중
[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거#Ray#Operator Fusion#Data Pipeline#Performance2025년 12월 19일댓글 수 로딩 중
[Ray Serve] 라우터 큐 대기 시간 메트릭 추가요청이 큐에서 레플리카에 할당되기까지의 대기 시간을 측정하는 메트릭 도입#Ray#Performance2025년 12월 16일댓글 수 로딩 중
[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.#Ray#Ray Data#Batching#ray.get#iter_batches#Performance2025년 12월 15일댓글 수 로딩 중
[Triton] MXFP4→BF16 변환에서 mul.bf16x2 강제 사용 — 1% MoE 성능 향상LLVM 자동 벡터화 실패를 우회하여 ptxas가 HMUL2 명령어를 생성하도록 유도#Triton#NVIDIA#Performance#PTX#Inline Assembly2025년 12월 11일댓글 수 로딩 중
[vllm] group_topk 커널 최적화 - 1.9% Throughput, 2.1% TPOT 개선MoE 라우팅의 group_topk CUDA 커널을 템플릿 기반으로 최적화하여 분기 제거와 루프 언롤링 적용#vllm#Performance2025년 12월 9일댓글 수 로딩 중
[Ray] 단일 노드 RDT 마이크로벤치마크 도입NCCL/GLOO 기반 텐서 전송의 처리량과 지연 시간을 정밀 측정하는 벤치마크 추가#Ray#Performance2025년 12월 9일댓글 수 로딩 중
[CPython] CPython RemoteUnwinder 프레임 캐싱으로 메모리 읽기 최적화last_profiled_frame 포인터와 프레임 캐시로 원격 프로파일링 시 메모리 읽기를 대폭 줄이는 최적화#Python#CPython#Profiling#Performance2025년 12월 6일댓글 수 로딩 중
[llm-compressor] Disable LM Head - 불필요한 LM Head 연산 비활성화양자화 캘리브레이션에서 LM Head 레이어의 forward pass를 비활성화하여 시간과 메모리 절약#llm-compressor#Performance2025년 12월 5일댓글 수 로딩 중
[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.#Ray#Python#Performance#Operator Fusion#Distributed Computing2025년 12월 3일댓글 수 로딩 중
[vllm] xxHash로 Prefix Caching 해싱 성능 가속고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선#vllm#Performance2025년 12월 3일댓글 수 로딩 중
[Triton] 성능 진단 테스트에서 stack trace 생성 비활성화diagnostics context에서 stacktraces 옵션 제거로 테스트 시간 15분 → 1초 이하로 단축#Triton#Testing#Performance#Developer Experience2025년 12월 3일댓글 수 로딩 중
[vllm] W4A8 Marlin 커널 - 4비트 가중치 + 8비트 활성화 양자화Marlin 커널에 W4A8 지원을 추가하여 4비트 가중치와 8비트 활성화의 혼합 정밀도 추론 가능#vllm#Performance2025년 11월 29일댓글 수 로딩 중
[Loki] 페이지 빌더 메모리 사전 할당 제거로 희소 컬럼 메모리 효율 개선Grafana Loki의 dataobj 페이지 빌더에서 최대 페이지 크기만큼 메모리를 사전 할당하던 것을, Go의 자연스러운 슬라이스 성장에 맡겨 희소 컬럼의 메모리 오버헤드를 줄인 최적화를 분석합니다.#Grafana Loki#Go#Memory#Performance#Data Object2025년 11월 27일댓글 수 로딩 중
[Loki] 테넌트 rate limit 기반 셔플 샤딩으로 쿼리 성능 향상Grafana Loki의 distributor에서 테넌트별 ingestion rate limit을 기반으로 셔플 샤딩을 적용하여, 저볼륨 테넌트의 세그먼트 키를 동일 파티션에 모아 쿼리 성능을 향상시킨 최적화를 분석합니다.#Grafana Loki#Go#Performance#Sharding#Distributed Systems#Query Optimization2025년 11월 24일댓글 수 로딩 중
[Grafana Loki] 파서의 문자열 인턴 셋에서 키 충돌 결과 캐싱 버그 수정internedStringSet이 키 충돌(duplicate suffix) 결과까지 캐싱하여 다른 스트림에 잘못된 라벨이 적용되던 버그를, 충돌 감지를 캐시 밖으로 이동하여 수정한 분석.#Grafana Loki#Go#Bug Fix#Parser#Performance2025년 11월 24일댓글 수 로딩 중
[Open WebUI] 외부 임베딩 API 호출을 병렬화하여 50배 성능 향상순차적으로 배치 처리하던 외부 임베딩 요청을 asyncio.gather로 병렬 실행하고, 동기 함수를 async로 전환하여 대규모 문서 처리 속도를 극적으로 개선한 최적화.#Open WebUI#Python#Performance#asyncio#Embeddings#RAG2025년 11월 23일댓글 수 로딩 중
[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화#Ray#PyTorch#Apache Arrow#Performance2025년 11월 22일댓글 수 로딩 중
[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선#vllm#Performance2025년 11월 21일댓글 수 로딩 중
[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.#Ray#Python#Performance#Prefetch#Latency#Data Pipeline2025년 11월 20일댓글 수 로딩 중
[Ray] Ray 대규모 리소스 뷰 동기화 -- 메시지 배칭으로 개선RaySyncer의 gRPC 스트리밍에 메시지 배칭을 도입해 대규모 클러스터의 리소스 동기화 효율을 높이다#Ray#Distributed Systems#gRPC#Performance2025년 11월 20일댓글 수 로딩 중
[ultralytics] COCO Segmentation 검증 300% 속도 향상 — RLE 인코딩 벡터화ThreadPool + faster_coco_eval 의존성을 PyTorch 벡터화 RLE로 교체하여 검증 속도 3배 향상#Python#PyTorch#YOLO#Performance#Segmentation2025년 11월 18일댓글 수 로딩 중
[Loki] fsGroupChangePolicy=OnRootMismatch로 Pod 시작 속도 향상Grafana Loki Helm 차트에서 Pod 시작 시 불필요한 chown 재귀 실행을 방지하기 위해 fsGroupChangePolicy를 OnRootMismatch로 설정하여 Pod 시작 시간을 단축한 최적화를 분석합니다.#Grafana Loki#Kubernetes#Helm#Performance#Pod Startup2025년 11월 17일댓글 수 로딩 중
[vllm] MP Executor로 멀티 노드 분산 추론 지원MultiprocExecutor를 확장하여 멀티 노드 환경에서의 텐서/파이프라인 병렬 추론을 V1 엔진에서 지원#vllm#Performance2025년 11월 16일댓글 수 로딩 중
[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.#Triton#AMD#LLVM#Scheduler#Flash Attention#Performance2025년 11월 14일댓글 수 로딩 중
[cpython] CPython의 새로운 Tracing JIT 컴파일러 프론트엔드trace projection에서 trace recording 모델로 전환하여 pyperformance 1.7% 향상, Richards 100% 가속#CPython#JIT Compiler#Trace Recording#Performance2025년 11월 13일댓글 수 로딩 중
[Ray Core] request ID 생성을 worker로 이동하여 plasma get 성능 회귀 수정동기 AsyncGet 응답 대기를 제거하여 plasma store get 처리량 2배 복구#Ray#Plasma Store#C++#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식CUDA의 투명 sleep mode를 ROCm/HIP으로 이식하여 AMD GPU에서도 유휴 시 전력 절약 가능#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation멀티모달 모델의 인코더를 분리하여 Encode, Prefill, Decode를 독립적으로 스케일링하는 disaggregation 아키텍처#vllm#Performance2025년 11월 12일댓글 수 로딩 중
[vllm] ROCm AITER MHA 백엔드 재설계AMD GPU용 AITER MHA 어텐션 백엔드를 재설계하여 cache 레이아웃 변환과 컨텍스트 병렬 처리를 개선#vllm#Performance2025년 11월 4일댓글 수 로딩 중
[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임#Triton#AMD#Scheduling#Performance#FlashAttention2025년 11월 3일댓글 수 로딩 중
[vllm] Suffix Decoding - Arctic Inference의 접미사 매칭 기반 Spec DecodeArctic Inference의 Suffix Decoding을 통합하여 이전 출력의 접미사 패턴을 활용한 speculative decoding#vllm#Performance2025년 11월 3일댓글 수 로딩 중
[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.#Triton#AMD#Async#Buffer Operations#Performance2025년 11월 2일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[Grafana Loki] 정규식 필터 평가에서 배치당 한 번만 컴파일하도록 최적화LogQL 정규식 필터에서 행마다 regex를 컴파일하던 것을 배치당 한 번 컴파일로 변경하여 할당량을 대폭 줄인 분석.#Grafana Loki#Go#Regex#Performance#Query Engine#Arrow2025년 10월 30일댓글 수 로딩 중
[uvloop] Transport.write 즉시 전송으로 레이턴시 감소 및 성능 최적화쓰기 버퍼가 비어있을 때 데이터를 즉시 전송하여 Transport.write의 레이턴시를 대폭 줄이는 최적화입니다.#uvloop#Performance#Networking#asyncio#Cython2025년 10월 30일댓글 수 로딩 중
[pydantic-ai] smokeshow CI 작업에서 불필요한 uv 캐시 비활성화smokeshow 배포 단계에서 캐시할 패키지가 없어 uv 캐시를 비활성화하여 CI 효율을 개선#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 29일댓글 수 로딩 중
[pydantic-ai] GitHub Actions uv 캐시에 cache-suffix 도입 — 패키지셋별 격리서로 다른 패키지 조합의 CI 작업들이 캐시를 공유하여 발생하는 비효율을 cache-suffix로 해결#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 29일댓글 수 로딩 중
[vllm] torch.compile로 Qwen Vision 모델 속도 향상generic nn.Module에서 supports_torch_compile을 활성화하여 Qwen2.5-VL 등 비전 모델의 torch.compile 호환성 확보#vllm#Performance2025년 10월 28일댓글 수 로딩 중
[pydantic-ai] CI에서 uv cache prune 비활성화 및 HuggingFace 캐시 키 개선CI에서 uv cache prune을 비활성화하고 HuggingFace 모델 캐시 키를 uv.lock 기반으로 변경#Python#Pydantic AI#CI/CD#GitHub Actions#Performance2025년 10월 28일댓글 수 로딩 중
[Grafana Loki] 쿼리 옵티마이저를 bottom-up에서 top-down 방식으로 리팩터링하여 중복 작업 제거DAG 노드마다 규칙을 개별 적용하던 bottom-up 옵티마이저를 루트에서 시작하는 top-down 방식으로 전환하여, 중복 규칙 적용과 추론 복잡성을 제거한 분석.#Grafana Loki#Go#Performance#Query Optimizer#Refactoring2025년 10월 24일댓글 수 로딩 중
[Ray RLlib] 모듈별 루프에서 ALL_MODULES 처리량 메트릭을 루프 밖으로 이동하여 바이어스 제거모듈 배치 루프 내부에서 ALL_MODULES 처리량을 기록하면 타임스탬프가 여러 번 찍혀 처리량이 부풀려지는 문제를 루프 밖에서 합산 기록하도록 수정한 분석.#Ray#Python#Performance#Metrics#RLlib2025년 10월 18일댓글 수 로딩 중
[Loki] 청크 재정렬 시 파이프라인 처리 바이패스로 CPU 최적화청크 flush 시 불필요한 라벨 파싱과 메타데이터 처리를 건너뛰는 최적화#Grafana Loki#Chunk Processing#CPU Optimization#Performance2025년 10월 17일댓글 수 로딩 중
[Loki] 쿼리 엔진 병렬 푸시다운 최적화 패스 추가Grafana Loki의 물리 플래너에 parallelPushdown 최적화 규칙을 추가하여, 필터링과 파싱 같은 작업을 Parallelize 노드 내부로 이동시켜 병렬 처리 범위를 확대한 PR을 분석합니다.#Grafana Loki#Query Engine#Performance#Go#Query Optimization#Parallelism2025년 10월 17일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.#YOLO#PyTorch#Optimization#ComputerVision#Performance2025년 10월 16일댓글 수 로딩 중
[Loki] 쿼리 엔진에 Parallelize 힌트 노드 추가물리 실행 계획에 Parallelize 노드를 추가하여 스케줄러의 병렬 작업 분배 기반 마련.#Grafana Loki#Go#Performance#Query Engine#Parallelism2025년 10월 16일댓글 수 로딩 중
[Ray] Data CI 파이프라인 병렬성 확대로 테스트 실행 시간 단축Ray Data의 CI 파이프라인에서 parallel 테스트의 워커 수를 2에서 8로 늘리고, non-parallel 테스트에도 3-way 병렬성을 추가하여 전체 CI 실행 시간을 단축한 최적화를 분석합니다.#Ray#CI/CD#Performance#Testing#Parallelism2025년 10월 14일댓글 수 로딩 중
[Open WebUI] RecursiveFolder 컴포넌트 지연 로딩으로 페이지 로드 속도 개선폴더가 열릴 때만 하위 항목을 요청하여 초기 로딩 시 불필요한 API 호출 제거#Open WebUI#Performance2025년 10월 9일댓글 수 로딩 중
[Grafana Loki] GetShards 호출에서 청크 크기 정보를 인덱스에서 직접 가져와 48% 성능 향상인덱스를 두 번 읽던 GetShards 로직을 한 번의 읽기로 통합하여 응답 시간 48%, 메모리 27% 절감을 달성한 최적화 분석.#Grafana Loki#Go#Performance#Index Query#TSDB2025년 10월 9일댓글 수 로딩 중
[Open WebUI] Knowledge 페이지 로딩 속도 개선: 중복 API 호출 제거Knowledge 페이지에서 항상 null이 아닌 knowledges 목록을 검증하기 위해 수행하던 불필요한 API 호출을 제거하여 페이지 로딩 속도를 개선한 PR을 분석합니다.#Open WebUI#Performance#Svelte#Page Loading#API Optimization2025년 10월 5일댓글 수 로딩 중
[Open WebUI] 파일 쿼리 시 필요한 컬럼만 조회하여 성능 개선전체 컬럼 대신 id, meta, created_at, updated_at만 조회하여 파일 메타데이터 쿼리 최적화.#Open WebUI#Python#Performance#Database#SQLAlchemy2025년 10월 3일댓글 수 로딩 중