#Performance

347개의 포스트

[uv] uv의 휠 태그 호환성 검사 최적화: 불필요한 메모리 할당 제거하기

uv의 휠 태그 호환성 검사 과정에서 발생하는 불필요한 Vec 할당을 제거하여 성능을 최대 5.6배 개선한 사례를 분석합니다.

#Rust #uv #Performance #Optimization #Packaging

2026년 7월 7일

[vllm] vLLM 성능 최적화: token_to_req_indices 캐싱을 통한 6배 성능 향상

vLLM에서 중복되던 CPU-GPU 간 데이터 복사를 제거하여 커널 성능을 5~6배 개선한 최적화 사례를 분석합니다.

#vLLM #LLM #Performance #Optimization #CUDA

2026년 7월 6일

[uv] uv의 패키지 설치 성능 최적화: 불필요한 site-packages 스캔 제거

uv가 설치 시 모든 패키지를 스캔하던 문제를 해결하여 대규모 환경에서 설치 속도를 최대 21.5% 개선했습니다.

#uv #Rust #Python #Performance #Optimization

2026년 7월 5일

[uv] Interning을 통한 uv의 Simple API 파싱 최적화: 메모리와 속도 두 마리 토끼 잡기

중복되는 requires-python 명세서를 Interning하여 메모리 사용량을 10% 줄이고 파싱 속도를 개선한 uv의 최적화 기법을 살펴봅니다.

#Rust #Optimization #uv #Python #Interning #Performance

2026년 7월 4일

[uv] uv, SIMD 가속 TOML 파싱으로 성능 향상

uv가 SIMD 가속 TOML 파싱 기능을 활성화하여 파싱 속도를 개선했습니다.

#Rust #Performance #Optimization #SIMD #TOML #uv

2026년 7월 1일

[open-webui] Open WebUI 성능 최적화: Svelte 컴포넌트에서 불필요한 HTML 재정제 방지

Svelte 컴포넌트에서 스트리밍 업데이트 시 불필요한 HTML 재정제를 방지하여 렌더링 성능을 크게 개선합니다.

#Svelte #Performance #Optimization #DOMPurify #Frontend #WebUI

2026년 6월 29일

[vllm] vLLM ROCM 최적화: GLM-4 MoE를 위한 Fused Shared Expert(FSE) 도입

GLM-4 MoE 모델의 공유 전문가(Shared Expert)를 FusedMoE 커널로 통합하여 추론 성능을 최대 22% 향상시켰습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 28일

[vllm] vLLM ROCm 환경에서 FlyDSL을 활용한 MXFP8 MoE 성능 최적화

ROCm gfx950 환경에서 FlyDSL 기반 MXFP8 MoE 커널을 통합하여 추론 성능을 최대 20% 향상하고 백엔드 선택 로직을 개선했습니다.

#vLLM #ROCm #MoE #MXFP8 #Performance #FlyDSL

2026년 6월 27일

[sglang] SGLang LTX-2.3 Diffusion 모델 최적화: Residual-Gate 연산 CUDA Fast Path 도입

SGLang LTX-2.3 모델의 핵심 연산인 residual-gate update를 CUDA 커널로 최적화하여 성능을 크게 향상시켰습니다.

#SGLang #CUDA #Optimization #Diffusion Models #Deep Learning #Performance

2026년 6월 27일

[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선

vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석

#vLLM #DeepSeekV4 #LLM #Performance #Optimization #ROCm #AITER #MXFP4

2026년 6월 26일

[vllm] vLLM ROCm 환경에서 Shared-Expert Fusion을 통한 MoE 추론 성능 최적화

MiniMax-M3 모델의 공유 전문가(Shared-expert)를 라우팅된 그룹 GEMM에 통합하여 추론 지연 시간을 최대 30% 개선했습니다.

#vLLM #ROCm #MoE #Performance #Optimization

2026년 6월 26일

[sglang] SGLang 성능 최적화: D2H 복사 연산의 비동기 오버랩 구현

SGLang에서 D2H(Device-to-Host) 복사를 별도 스트림으로 분리하여 추론 성능을 향상시킨 최적화 사례 분석.

#SGLang #CUDA #Performance #Optimization #LLM

2026년 6월 24일

[triton] Triton Autotuner 최적화: Pruned Config가 하나일 때 불필요한 벤치마크 생략하기

Triton Autotuner에서 설정이 하나로 압축될 경우, 불필요한 벤치마킹 과정을 건너뛰어 성능을 개선한 사례를 분석합니다.

#Triton #Autotuner #Performance #Optimization #Compiler

2026년 6월 18일

[vllm] vLLM Mooncake KV 오프로딩 최적화: 불필요한 KV 조회 건너뛰기

vLLM의 Mooncake KV 오프로딩 성능 향상: 불필요한 KV 조회 건너뛰고 스토리지 오버헤드 감소

#vLLM #LLM #KV Cache #Optimization #Performance

2026년 6월 18일

[ray] Ray Core의 Lock Contention 해결: Publisher의 비동기 처리 도입

Ray의 Object Pubsub 로직을 IO 스레드로 분리하여 스케줄링 루프의 Lock Contention을 획기적으로 개선한 사례를 분석합니다.

#Ray #C++#Concurrency #Performance #Distributed Systems

2026년 6월 17일

[sglang] SGLang 성능 최적화: Speculative Decoding의 H2D 병목 해결 및 코드 중복 제거

Speculative Decoding 경로에서 발생하는 동기식 H2D 복사를 비동기 방식으로 최적화하고, 중복된 로직을 통합하여 성능을 개선했습니다.

#SGLang #LLM #Performance #PyTorch #SpeculativeDecoding

2026년 6월 17일

[onnxruntime] ONNX Runtime WebGPU: Reduce 연산 최적화를 통한 성능 향상

WebGPU 환경에서 ReduceMean 연산 시 발생하는 불필요한 Transpose 오버헤드를 제거하여 모델 추론 속도를 개선한 사례를 분석합니다.

#ONNXRuntime #WebGPU #Optimization #Performance #GPGPU

2026년 6월 16일

[sglang] [성능 최적화] Wan2.2 모델을 위한 최적의 torch.compile 모드 찾기: 왜 'default'가 더 빠를까?

Wan2.2 T2V A14B 모델에서 torch.compile 모드를 'default'로 변경하여 성능을 5% 이상 향상시키고 메모리 사용량을 줄인 사례를 분석합니다.

#PyTorch #torch.compile #SGLang #Performance #DeepLearning #Wan2.2

2026년 6월 16일

[cpython] CPython unicodedata.normalize() 최적화: Py_UCS4 버퍼 직접 조작으로 성능 향상

unicodedata.normalize()의 정렬 로직을 Py_UCS4 버퍼 직접 조작으로 최적화하여 성능을 개선합니다.

#Python #CPython #Optimization #Unicode #Performance #C

2026년 6월 15일

[hermes-agent] [성능 최적화] OpenRouter 모델 메타데이터의 디스크 캐싱 도입기: Hermes Agent의 콜드 스타트 개선

OpenRouter API 호출을 줄이고 콜드 스타트 성능을 높이기 위해 디스크 기반 캐시 계층을 도입한 최적화 사례를 분석합니다.

#Python #Performance #Caching #OpenRouter #HermesAgent

2026년 6월 14일

[sglang] SGLang의 긴 문맥 처리 최적화: fill_ids 재구성 오버헤드 줄이기

RadixKey에 limit을 도입하여 불필요한 메모리 복사를 제거하고 긴 문맥 추론 성능을 개선한 사례 분석.

#SGLang #LLM #Optimization #Python #Performance

2026년 6월 14일

[vllm] vLLM에서 Lfm2VL 모델을 위한 Encoder CUDA Graph 최적화 적용

Lfm2VL 모델에 Encoder CUDA Graph를 도입하여 낮은 배치 사이즈에서 추론 지연 시간을 10-20% 개선했습니다.

#vLLM #CUDA Graph #LLM #Optimization #Performance

2026년 6월 12일

[onnxruntime] WebGPU 성능 최적화: Graph Capture 재사용을 위한 Session-level Buffer Pool 도입

ONNX Runtime WebGPU EP에서 그래프 캡처 시 발생하는 버퍼 재할당 오버헤드를 줄이기 위한 세션 레벨 버퍼 풀링 기법 분석

#WebGPU #ONNXRuntime #Performance #GraphCapture #GenAI

2026년 6월 10일

[transformers] Hugging Face Transformers: 멀티프로세싱 풀 재사용을 통한 모듈식 변환 성능 최적화

멀티프로세싱 풀을 매번 생성하지 않고 재사용함으로써 모듈식 변환 속도를 약 50% 향상시킨 사례를 분석합니다.

#Python #Performance #Multiprocessing #HuggingFace #Optimization

2026년 6월 9일

[vllm] vLLM CPU 추론 성능 최적화: Speculative Decoding과 libiomp5의 중요성

vLLM의 CPU Speculative Decoding 환경에서 libiomp5 누락 시 발생하는 성능 저하 문제를 진단하고 경고하는 최적화 가이드.

#vLLM #CPU #Speculative Decoding #OpenMP #Performance

2026년 6월 8일

[cpython] Python re 모듈의 findall, sub, subn 성능 개선: PyList_AppendTakeRef 도입

Python re 모듈의 findall, sub, subn 함수에서 리스트 생성 시 불필요한 참조 카운트 연산을 제거하여 성능을 개선했습니다.

#Python #CPython #Performance #Regex #Optimization

2026년 6월 7일

[sglang] SGLang의 Ideogram4 추론 성능 최적화: Denoising 루프 내 오버헤드 제거

Ideogram4 모델의 Denoising 루프에서 반복적으로 수행되던 마스크 메타데이터 생성 및 스케줄 계산을 사전 연산으로 최적화하여 성능을 개선했습니다.

#SGLang #Diffusion #Optimization #Performance #Ideogram4

2026년 6월 7일

[vllm] vLLM의 GDN 어텐션 최적화: Prefill과 Decode 배치 분리를 통한 2배 성능 향상

Mixed 배치에서 Prefill과 Decode를 분리하여 GDN 어텐션 연산 효율을 극대화하고 1.93배의 커널 속도 향상을 달성했습니다.

#vLLM #LLM #Performance #Optimization #CUDA #GDN

2026년 6월 6일

[hermes-agent] CLI 사용자 경험 개선: 백그라운드 캐시 워밍을 통한 모델 선택기 응답 속도 최적화

사용자 입력 전 백그라운드에서 모델 캐시를 미리 로드하여 /model 명령어 응답 시간을 1.5초에서 136ms로 단축했습니다.

#Python #Performance #CLI #Optimization #Async

2026년 6월 5일

[sglang] [SGLang] LingBot 실시간 서빙 최적화: 카메라 컨디셔닝 캐싱과 전송 프로토콜 개선

LingBot의 실시간 지연시간을 10% 이상 단축시킨 카메라 컨디셔닝 캐싱 및 전송 레이어 최적화 기법을 살펴봅니다.

#SGLang #Diffusion #Optimization #Realtime #PyTorch #Performance

2026년 6월 5일

[cpython] CPython 내부 들여다보기: logging.getLogger()는 어떻게 33% 더 빨라졌나?

CPython의 logging 모듈이 락 프리(lock-free) 패스트 패스를 도입하여 기존 로거 조회 성능을 33% 개선한 과정을 분석합니다.

#Python #CPython #Performance #Optimization #Logging

2026년 6월 4일

[ray] Ray Data의 hash_partition 성능을 7배 향상시킨 최적화 전략

PyArrow의 sort_indices와 zero-copy 슬라이싱을 활용하여 Ray Data의 hash_partition 성능을 대폭 개선한 사례를 분석합니다.

#Ray #PyArrow #Performance #DataEngineering #Optimization

2026년 6월 4일

[transformers] Hugging Face Transformers: SequenceFeatureExtractor.pad() 최적화로 불필요한 NumPy 배열 재변환 제거

Hugging Face Transformers의 SequenceFeatureExtractor.pad() 메서드에서 NumPy 배열의 불필요한 재변환을 제거하여 성능을 개선했습니다.

#Python #NumPy #Performance #Hugging Face Transformers #Optimization

2026년 6월 2일

[uv] uv의 로컬 휠(Wheel) 압축 해제 성능 회귀 문제 해결: astral_async_zip 버전 업데이트

astral_async_zip 라이브러리의 버전을 rc4에서 정식 버전으로 업데이트하여 로컬 휠 압축 해제 성능 저하를 해결한 사례를 분석합니다.

#Rust #uv #Performance #Optimization #Packaging

2026년 6월 1일

[cpython] tarfile 스트리밍 모드(r|*) 성능 개선: 파이썬 압축 파일 처리의 숨겨진 병목 제거

tarfile 모듈의 r|* 모드에서 발생하던 비효율적인 버퍼링 문제를 해결하여 압축 파일 읽기 성능을 획기적으로 개선한 PR 분석.

#Python #tarfile #Performance #Optimization #CPython #Compression #Streaming

2026년 5월 30일

[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화

ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.

#sglang #ROCm #MXFP4 #Attention #Optimization #Performance #Deepseek

2026년 5월 29일

[feast] Feast Feature Server의 직렬화 성능 4배 향상: MessageToDict 최적화

Feast의 Feature Server에서 Protobuf 직렬화 병목을 해결하기 위해 커스텀 dict 빌더를 도입하여 성능을 4배 개선한 사례를 분석합니다.

#Feast #Python #Protobuf #Performance #Optimization

2026년 5월 28일

[cpython] Python의 os.fork 후 발생하던 성능 프로파일링 충돌 문제 해결 및 최적화 분석

os.fork 후 발생하던 CPython의 성능 프로파일링 충돌 문제를 해결하고, 코드 재사용성을 높인 최적화 분석.

#Python #CPython #Performance #Optimization #fork #Profiling

2026년 5월 25일

[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상

VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.

#SGLang #VLM #CUDA #Optimization #Performance

2026년 5월 24일

[cpython] CPython의 PySequence_GetSlice 성능 개선: 불필요한 참조 카운트 연산 제거

CPython의 PySequence_GetSlice 함수에서 불필요한 참조 카운트 증가/감소 연산을 제거하여 성능을 개선했습니다.

#Python #CPython #Performance #Optimization #C API

2026년 5월 23일

[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근

vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.

#vLLM #XPU #MOE #Performance #Optimization

2026년 5월 23일

[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석

CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.

#ONNXRuntime #C++#Optimization #MultiThreading #Performance

2026년 5월 22일

[cpython] Python JIT 최적화: 트레이스 버퍼 오버헤드 관리 개선

Python JIT 컴파일러의 트레이스 버퍼 관리 방식을 개선하여 안정성을 높이고 성능을 소폭 향상시킨 PR을 분석합니다.

#Python #JIT #Optimization #CPython #Performance

2026년 5월 21일

[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속

CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.

#ONNX Runtime #LLM #Quantization #SIMD #Performance

2026년 5월 21일

[cpython] Tachyon 프로파일러의 성능 한계를 돌파하다: CPython 원격 디버깅 최적화 분석

원격 프로세스 메모리 읽기 최적화와 캐시 전략 개선을 통해 Tachyon 프로파일러의 오버헤드를 획기적으로 줄인 사례를 분석합니다.

#Python #CPython #Profiling #Performance #Linux #Systems Programming

2026년 5월 20일

[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기

vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#vLLM #LLM #Performance #GPU #Optimization

2026년 5월 19일

[cpython] CPython 성능 최적화: 임시 리스트를 튜플로 변환할 때의 '아이템 스틸' 기법

CPython 3.14에서 도입된 INTRINSIC_LIST_TO_TUPLE 최적화를 통해 불필요한 메모리 복사를 제거하고 성능을 8%까지 끌어올린 과정을 살펴봅니다.

#CPython #Python Internals #Optimization #Performance #C-API

2026년 5월 18일

[loki] Grafana Loki: Range Aggregation 성능 최적화와 메모리 할당 감소

overlapping window 시나리오에서 불필요한 메모리 할당을 제거하여 성능을 39% 향상시킨 사례 분석

#Golang #Grafana Loki #Performance #Optimization #Memory Management

2026년 5월 18일

[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!

vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.

#vLLM #PyTorch #Optimization #Performance #DeepLearning #Qwen3.5 #einops #flatten

2026년 5월 18일

[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석

vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.

#vLLM #XPU #MXFP4 #Quantization #GEMM #Performance

2026년 5월 13일

[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신

FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.

#FlashInfer #Mamba #SSU #Kernel Optimization #Triton #CUDA #Performance

2026년 5월 13일

[cpython] CPython inspect.getattr_static 성능 개선: 일반적인 메타클래스 사례 최적화

CPython의 inspect.getattr_static 함수가 일반적인 메타클래스 사용 시 성능을 개선하는 방법을 분석합니다.

#Python #CPython #Performance #Optimization #Inspect #Metaclass

2026년 5월 10일

[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석

FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입

#FlashInfer #CUDA #Quantization #LLM #Performance

2026년 5월 8일

[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석

FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.

#CUDA #MoE #Blackwell #Performance #Triton

2026년 5월 7일

[cpython] CPython arraymodule 최적화: 구조체 메모리 레이아웃 개선을 통한 성능 향상

CPython의 arraymodule 내 arraydescr 구조체에서 포인터 대신 고정 크기 배열을 사용하여 메모리 효율성과 접근 속도를 개선한 사례를 분석합니다.

#CPython #C #Optimization #Memory Management #Performance

2026년 5월 6일

[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기

convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.

#HuggingFace #Transformers #Python #Optimization #Performance

2026년 5월 4일

[cpython] CPython JIT 최적화: 불변 및 불사 객체에 대한 불필요한 의존성 제거하기

CPython JIT 엔진에서 Immutable 및 Immortal 클래스에 대한 감시(Watch)를 생략하여 성능을 개선한 사례를 분석합니다.

#CPython #JIT #Optimization #Python-Internals #Performance

2026년 5월 3일

[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화

UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.

#SGLang #LLM #Caching #Performance #RadixTree

2026년 5월 3일

[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성

비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.

#LlamaFactory #Qwen-VL #Optimization #Performance #LLM

2026년 5월 3일

[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화

vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.

#vLLM #LLM #Triton #Performance #JIT

2026년 5월 1일

[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화

SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석

#LLM #SGLang #Inference Optimization #KV Cache #Disaggregation #Performance

2026년 5월 1일

[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용

CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.

#CUDA #PyTorch #Optimization #LoRA #Performance

2026년 4월 30일

[triton] Triton의 Ragged Matmul 메타데이터 계산 최적화: CPU 동기화 없는 효율적인 프로파일링

Ragged matmul의 메타데이터 계산을 다수의 Torch 커널에서 단일 Triton 커널로 통합하여 오버헤드를 획기적으로 줄였습니다.

#Triton #GPU #Performance #Profiling #Matmul

2026년 4월 29일

[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상

FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.

#FlashInfer #TRTLLM #MoE #NemotronH #FP4 #FP8 #Kernel Optimization #Deep Learning #Performance

2026년 4월 29일

[cpython] Python dataclasses 모듈의 성능 최적화: inspect 모듈의 Lazy Import 도입

dataclasses 모듈의 무거운 inspect 의존성을 Lazy Import로 전환하여 모듈 로드 시간을 약 20-30% 개선했습니다.

#Python #CPython #Performance #Optimization #dataclasses

2026년 4월 26일

[cpython] Python statistics.fmean() 성능 최적화: itertools.compress를 활용한 오버헤드 제거

itertools.compress를 활용하여 튜플 생성 오버헤드를 제거하고 fmean의 성능을 약 39% 향상시킨 사례를 분석합니다.

#Python #Performance #Optimization #CPython #itertools

2026년 4월 23일

[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입

vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.

#vLLM #CPU #Optimization #NEON #Performance

2026년 4월 23일

[abtop] Codex 세션 파일 검색 성능 개선: lsof 대신 /proc/pid/fd 활용

Codex 세션에서 열린 JSONL 파일을 찾는 방식을 lsof에서 /proc/pid/fd로 변경하여 Linux 환경에서 성능을 크게 향상시켰습니다.

#Rust #Performance #Linux #Optimization #System Programming

2026년 4월 21일

[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법

백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.

#vLLM #Performance #Optimization #Python #Multiprocessing

2026년 4월 21일

[ollama] Ollama MLX Sampler 최적화: 성능 향상과 Logprobs 지원

Ollama의 MLX 러너에서 샘플링 로직을 개선하여 성능을 약 1.5% 향상하고 Logprobs 기능을 통합했습니다.

#Ollama #MLX #LLM #Performance #Golang

2026년 4월 21일

[open-webui] Open WebUI 성능 최적화: 불필요한 DB 중복 조회 제거하기

인증 과정에서 이미 로드된 사용자 정보를 재조회하던 비효율적인 DB 호출을 제거하여 API 응답 속도를 개선했습니다.

#Python #FastAPI #Performance #Optimization #OpenWebUI

2026년 4월 17일

[open-webui] Open WebUI 채팅 파일 중복 제거 로직 최적화: O(n*m)에서 O(n+m)으로

Open WebUI의 채팅 파일 중복 제거 로직을 리스트에서 세트로 변경하여 성능을 크게 개선했습니다.

#Python #Optimization #Performance #Backend #Open WebUI

2026년 4월 17일

[cpython] CPython JIT 구현을 위한 내부 API 익스포트: PEP 523 활용

CPython의 내부 함수들을 JIT 컴파일러가 사용할 수 있도록 PyAPI_FUNC로 노출하여 성능 최적화 기반을 마련한 변경사항 분석.

#CPython #JIT #PEP-523 #Internal API #Performance

2026년 4월 17일

[cpython] CPython의 BINARY_OP_EXTEND 최적화: 타입 정보 전파를 통한 성능 개선

BINARY_OP_EXTEND에 리스트와 튜플 연산을 추가하고, 타입 정보를 JIT에 전달하여 가드(guard)를 제거함으로써 성능을 최적화했습니다.

#CPython #Python Internals #Performance #JIT #Optimization

2026년 4월 16일

[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선

SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.

#SGLang #Diffusion Models #RL #Optimization #Performance #API

2026년 4월 15일

[cpython] Python JIT 옵티마이저의 다중 캐시 버그 수정: `optimizer_generator` 개선 분석

Python JIT 옵티마이저가 다중 캐시를 올바르게 처리하도록 수정된 PR 분석.

#Python #JIT #Optimizer #Performance #Bug Fix #CPython

2026년 4월 14일

[vllm] vLLM 성능 최적화: Thread Pool을 활용한 Blocking I/O 오프로딩 전략

vLLM의 Pooling 엔트리포인트에서 발생하는 전/후처리 병목 현상을 Thread Pool로 해결하여 2ms의 지연 시간을 단축한 사례를 분석합니다.

#vLLM #Python #AsyncIO #Performance #Thread Pool

2026년 4월 14일

[cpython] CPython JIT 최적화: 키워드 및 바운드 메서드 호출 성능 개선

CPython JIT 컴파일러가 키워드 인수와 바운드 메서드 호출을 더 효율적으로 처리하도록 최적화하는 방법을 설명합니다.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 13일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일

[cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상

CPython JIT 컴파일러에서 불필요한 스택 조작을 제거하여 성능을 개선하는 코드 변경 분석.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 11일

[SGLang] C++ Radix Tree: 고성능 캐시를 위한 네이티브 구현

SGLang의 C++ Radix Tree 구현을 분석한다. Python 바인딩, V2 트리 구조의 노드 설계, 메모리 효율적 탐색과 삽입 알고리즘을 코드와 함께 살펴본다.

#sglang #C++ Radix Tree #Native Implementation #Performance

2026년 4월 10일

[vllm] vLLM 성능 최적화: H2D 메모리 복사 병목 해결을 통한 추론 처리량 개선

Triton Attention 커널에서 발생하는 불필요한 Host-to-Device(H2D) 메모리 전송을 캐싱 전략으로 제거하여 멀티모달 모델의 추론 성능을 최적화했습니다.

#vLLM #CUDA #Performance #Triton #DeepLearning

2026년 4월 10일

[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석

vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.

#vLLM #ROCm #Triton #Quantization #MI300X #Performance

2026년 4월 10일

[cpython] CPython JIT 최적화: MAKE_FUNCTION의 불필요한 참조 카운팅 제거

CPython JIT 컴파일러에서 MAKE_FUNCTION 바이트코드의 불필요한 참조 카운팅을 제거하여 성능을 개선합니다.

#CPython #JIT #Optimization #Python Internals #Performance

2026년 4월 9일

[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감

MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.

#MLX #Apple Silicon #VAE #Memory Optimization #Performance

2026년 4월 7일

[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입

Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.

#SGLang #Diffusion #NVFP4 #CUTLASS #Performance

2026년 4월 4일

[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입

SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.

#VLM #Optimization #SGLang #Multimodal #Caching #Performance

2026년 4월 4일

[ollama] Ollama의 Gemma 4 모델 Flash Attention 비활성화: 성능 회귀(Regression) 해결 사례

Gemma 4 모델에서 Flash Attention 적용 후 발생한 40% 이상의 성능 저하 문제를 Revert를 통해 해결한 사례를 분석합니다.

#Ollama #FlashAttention #Performance #Gemma4 #Optimization

2026년 4월 4일

[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화

vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.

#vLLM #CUDA #Performance #KV-Cache #Optimization

2026년 4월 3일

[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선

Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.

#vLLM #Mamba #Optimization #DeepLearning #Performance

2026년 4월 3일

[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선

Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.

#Vitest #CI #Performance #Optimization #Testing

2026년 4월 1일

[Loki] Kafka 파티션 불필요한 Shuffle Sharding 제거

ShardSize가 0일 때 불필요한 shuffle shard 생성을 건너뛰어 메모리 사용량 절감.

#Grafana Loki #Go #Performance #Kafka #Memory Optimization

2026년 4월 1일

[Open WebUI] ChatItem 사이드바 메모리 누수 수정

이벤트 리스너 정리와 공유 드래그 이미지로 사이드바 ChatItem의 메모리 누수 해결.

#Open WebUI #Svelte #Performance #Memory Leak #Frontend

2026년 4월 1일

[Open WebUI] DOMParser 대신 html-entities로 HTML 디코딩 최적화

스트리밍 중 매 프레임마다 DOM 문서를 생성하던 unescapeHtml을 경량 decode 함수로 교체.

#Open WebUI #TypeScript #Performance #Frontend #GC Pressure

2026년 4월 1일

[Open WebUI] 비중국어 콘텐츠에 대한 불필요한 처리 스킵으로 스트리밍 성능 개선

매 스트리밍 프레임마다 중국어 여부와 관계없이 실행되던 processChineseContent 함수에 가드 조건을 추가하여 비중국어 콘텐츠의 처리 오버헤드를 제거한 PR을 분석합니다.

#Open WebUI #Performance #TypeScript #Streaming #Early Return

2026년 4월 1일

[Loki] 캐시 최대 크기 초과 시 조기 중단으로 OOM 방지

증분 인코딩과 크기 체크로 대용량 응답의 불필요한 버퍼링 제거

#Grafana Loki #Cache #Memory Optimization #Performance

2026년 4월 1일

[Open WebUI] 채팅 제목 업데이트 시 DB 컨텍스트를 단일 세션으로 통합하여 역직렬화 2회 제거

get_chat_by_id + update_chat_by_id 체이닝으로 두 번의 DB 컨텍스트와 JSON 역직렬화를 발생시키던 로직을 단일 세션으로 인라인한 최적화 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 4월 1일

[sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합

RMSNorm JIT 커널에 Blackwell(32B wide vector) 및 pre-Blackwell(16B double load) 변형을 추가하고 벤치마크를 통합

#SGLang #JIT Kernel #RMSNorm #CUDA #Performance

2026년 4월 1일

[sglang] fused_qknorm_rope 최적화 - interleave RoPE에서 sincosf 중복 제거

interleave 방식 RoPE에서 인접 요소 쌍이 동일한 frequency를 공유하는 점을 활용하여 sincosf 호출 횟수를 절반으로 줄임

#SGLang #JIT Kernel #CUDA #RoPE #Performance

2026년 4월 1일

[Open WebUI] replaceTokens 함수에 early return 추가로 스트리밍 성능 개선

Open WebUI에서 스트리밍 중 매 프레임마다 불필요하게 실행되던 replaceTokens의 정규식 연산을, 단순한 문자열 포함 검사로 조기 반환하여 성능을 개선한 최적화를 분석합니다.

#Open WebUI #TypeScript #Performance #Early Return #Streaming

2026년 4월 1일

[Open WebUI] 스트림 청크 핸들러에서 yield 호출 횟수 절반으로 줄이기

라인별 두 번의 yield를 한 번으로 합쳐 async generator 오버헤드 감소

#Open WebUI #Performance

2026년 3월 31일

[Open WebUI] JS transition을 CSS 애니메이션으로 교체하여 스트리밍 렌더링 최적화

Svelte의 transition:fade를 CSS @keyframes로 대체하여 스트리밍 중 메인 스레드 부하를 대폭 줄인 분석.

#Open WebUI #Svelte #Performance #CSS #Animation

2026년 3월 31일

[Ray] ActorHandle의 hash 캐싱 및 eq 정확성 수정

해시 캐싱으로 dict/set 연산 35% 가속, 해시 충돌 기반 eq 버그 수정

#Ray #Python #Hash Optimization #Performance

2026년 3월 31일

[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기

Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.

#Feast #Python #Performance #Optimization #Data Engineering

2026년 3월 31일

[Ray] 외부 소비자의 Object Store 사용량을 Resource Manager 예산에 반영

Iterator와 streaming_split의 프리페치가 보유한 블록을 executor sink 오퍼레이터에 귀속시켜, 리소스 매니저가 정확한 메모리 예산을 할당하도록 개선한 분석.

#Ray #Python #Performance #Resource Management #Memory #Data Pipeline

2026년 3월 31일

[Open WebUI] CodespanToken에서 JS 트랜지션을 CSS 애니메이션으로 교체하여 메인 스레드 부하 제거

Svelte의 transition:fade를 CSS @keyframes로 교체하고, 중복된 코드 블록을 단일 엘리먼트로 통합한 최적화 분석.

#Open WebUI #Svelte #CSS #JavaScript #Performance #Animation

2026년 3월 31일

[sglang] CI에서 NVIDIA wheel 로컬 캐싱으로 830MB 반복 다운로드 방지

pypi.nvidia.com의 Cache-Control: no-store로 인한 cudnn/nvshmem wheel 반복 다운로드를 로컬 캐시로 해결

#SGLang #CI/CD #Performance #NVIDIA

2026년 3월 31일

[llm-compressor] GPTQ Block Quantization 지원

GPTQ 양자화에 block quantization을 추가하여 더 세밀한 양자화 그룹 분할과 품질 향상

#llm-compressor #Performance

2026년 3월 31일

[Open WebUI] PanZoom 인스턴스 메모리 누수를 PanzoomContainer 컴포넌트로 통합 해결

여러 컴포넌트에 분산된 panzoom 생성/해제 로직을 단일 PanzoomContainer로 통합하여 dispose 누락으로 인한 메모리 누수를 근본적으로 해결한 분석.

#Open WebUI #Svelte #Performance #Memory Leak #Frontend

2026년 3월 31일

[gradio] Gradio SSE 라우트의 폴링 제거를 통한 성능 최적화

Gradio의 SSE 통신에서 비효율적인 폴링 방식을 제거하고, asyncio.Queue를 활용한 이벤트 기반 대기 방식으로 전환하여 오버헤드를 획기적으로 줄였습니다.

#Gradio #Python #asyncio #Performance #SSE

2026년 3월 30일

[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가

다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.

#Ray #Python #LLM #Benchmark #Performance #Concurrency

2026년 3월 30일

[CPython] dict 접근 최적화: known hash를 활용한 중복 해시 계산 제거

CPython의 dict 자료구조에서 이미 알고 있는 hash 값을 활용하여 중복 해시 연산을 제거하는 JIT/인터프리터 최적화 분석.

#CPython #Performance #Dict #JIT #Optimization #C

2026년 3월 30일

[vllm] DFlash - Block Diffusion 기반 Speculative Decoding

DFlash 알고리즘을 vLLM에 통합하여 GSM8k에서 acceptance length 6.54를 달성하는 고효율 추론 가속

#vllm #Performance

2026년 3월 30일

[Open WebUI] 공유 채팅 삭제 시 전체 행 대신 ID만 조회하여 메모리 절약

delete_shared_chats_by_user_id에서 Chat 전체를 로드하던 쿼리를 Chat.id만 프로젝션하도록 변경하여 JSON 데이터 로드 비용을 제거한 최적화.

#Open WebUI #Python #Performance #SQLAlchemy #Query Optimization

2026년 3월 30일

[Open WebUI] 매 인증 요청마다 실행되는 last_active 업데이트를 단일 UPDATE 쿼리로 최적화

SELECT + refresh + Pydantic 직렬화를 수행하던 last_active 업데이트를 단일 UPDATE 문으로 교체하여 매 요청의 DB 부하를 줄인 최적화 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 3월 30일

[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화

멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다

#SGLang #CUDA IPC #Multimodal #Performance

2026년 3월 29일

[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가

GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.

#Axolotl #GRPO #LLM Training #Performance #Flash Attention #PyTorch #Reinforcement Learning

2026년 3월 28일

[Ray Serve] 처리량 최적화 설정 로깅 기능 추가

RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력

#Ray #Ray Serve #Observability #Performance

2026년 3월 28일

[llm-compressor] iMatrix Weighted MSE Observer - 중요도 행렬 기반 양자화

Importance Matrix(iMatrix)를 활용한 가중 MSE observer로 중요 가중치의 양자화 정밀도를 우선 보존

#llm-compressor #Performance

2026년 3월 27일

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감

map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속

#Ray #Serialization #Object Store #Performance

2026년 3월 27일

[Open WebUI] sendMessage에서 중복 getChatList 호출 제거

메시지 전송 시 불필요한 사이드바 갱신 DB 쿼리 1회 제거

#Open WebUI #Svelte #Frontend Optimization #Performance

2026년 3월 25일

[Open WebUI] saveChatHandler에서 불필요한 채팅 목록 재조회 제거

메시지 저장 때마다 전체 채팅 목록을 다시 불러오던 getChatList 호출을 제거하여 불필요한 네트워크 왕복을 차단한 최적화.

#Open WebUI #Svelte #Performance #Frontend #API Call

2026년 3월 25일

[Ray] 압력 기반 메모리 모니터 도입으로 메모리 관리 고도화

cgroup PSI 기반 메모리 압력 감지로 임계값 방식보다 정밀한 메모리 관리

#Ray #Performance

2026년 3월 24일

[cpython] CPython JIT 최적화: Float 연산의 In-place 변환을 통한 성능 향상

CPython JIT의 Tier 2 옵티마이저에서 고유 참조된 Float 피연산자를 In-place로 변환하여 메모리 할당을 줄이고 성능을 개선하는 방법.

#CPython #JIT #Optimization #Python Internals #Performance

2026년 3월 24일

[Open WebUI] chatEventHandler의 히스토리 업데이트를 rAF로 배치 처리하기

스트리밍 중 불필요한 Svelte 반응형 업데이트를 requestAnimationFrame으로 묶어 성능 개선

#Open WebUI #Performance

2026년 3월 24일

[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환

completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.

#Ray #Python #Performance #SGLang #LLM Serving

2026년 3월 24일

[vllm] Thinking Token Hard Limit - 추론 토큰 수 제한으로 리소스 제어

reasoning 모델의 thinking token에 hard limit을 설정하여 과도한 연산 소비를 방지하고 예측 가능한 서빙

#vllm #Performance

2026년 3월 24일

[Ray] Actor Pool Map Operator 스케줄러 오버헤드 57% 감소

Ray Data의 actor pool 스케줄러에서 protobuf enum 캐싱, dict lookup 최소화, 상수 호이스팅으로 500+ 액터 환경에서 57% 성능 개선을 달성한 PR 분석.

#Ray #Ray Data #Actor Pool #Python Optimization #Protobuf #Performance

2026년 3월 23일

[vllm] ViT Full CUDA Graph - 비전 인코더 CUDA Graph 완전 지원

EncoderCudaGraphManager를 도입하여 ViT 인코더의 CUDA Graph 캡처/리플레이를 구현, 비전 모델 추론 가속

#vllm #Performance

2026년 3월 23일

[Ultralytics] detect/obb Loss 계산의 preprocess를 벡터화하여 학습 속도 향상

배치별 for 루프를 scatter_add 기반 벡터 연산으로 대체하여 detect/obb Loss의 preprocess 단계를 가속합니다.

#Ultralytics #YOLO #PyTorch #Vectorization #Performance

2026년 3월 22일

[Axolotl] LoRA 커널에 bias, dropout, DoRA, embedding 지원 추가

Axolotl의 Triton LoRA 커널을 확장하여 bias 파라미터, dropout, DoRA(Weight-Decomposed LoRA), embedding 레이어를 지원하도록 개선한 분석.

#Axolotl #LoRA #DoRA #Triton #LLM Training #Performance #PEFT

2026년 3월 22일

[Axolotl] Qwen 3.5 모델 Liger 커널 지원 및 fused RMSNorm+Gated 커널 추가

Axolotl에 Qwen 3.5 / Qwen 3.5 MoE 모델용 Liger FLCE 커널 지원과 fused RMSNorm+SiLU gate Triton 커널을 추가한 분석.

#Axolotl #Liger Kernel #Qwen 3.5 #RMSNorm #Triton #LLM Training #Performance

2026년 3월 22일

[Open WebUI] 메모리 항목 삭제 시 확인 대화상자 추가

개별 메모리 삭제에 확인 대화상자를 추가하여 실수 방지 UX 개선

#Open WebUI #Svelte #UX #Performance

2026년 3월 21일

[Axolotl] ScatterMoE LoRA Triton 커널의 autotune 탐색 공간 축소

ScatterMoE LoRA Triton 커널의 autotune 설정에서 불필요하게 큰 block size를 제거하여 컴파일 시간을 단축하고 shared memory 초과를 방지한 분석.

#Axolotl #Triton #ScatterMoE #LoRA #Autotune #Performance #GPU

2026년 3월 21일

[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합

ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.

#Axolotl #ScatterMoE #LoRA #Triton #MoE #Benchmark #GPU #Performance

2026년 3월 19일

[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화

Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.

#Triton #PyTorch #Optimization #Deep Learning #Performance #GPU

2026년 3월 19일

[Ray] find_gcs_addresses 결과 캐싱으로 프로세스 스캔 비용 제거

매번 프로세스 목록을 스캔하던 GCS 주소 탐색을 캐싱하여 성능 개선

#Ray #Performance

2026년 3월 18일

[Loki] Shard Factor 1일 때 Shuffle Shard 생략으로 메모리 50% 절감

단일 파티션 할당 시 불필요한 ShuffleShard 호출을 건너뛰어 CPU와 메모리 사용량 대폭 절감.

#Grafana Loki #Go #Performance #Memory Optimization #Kafka

2026년 3월 18일

[llm-compressor] AWQ DDP - 분산 데이터 병렬 AWQ 양자화

AWQ 양자화에 DDP(Distributed Data Parallel)를 적용하여 멀티 GPU에서 캘리브레이션 속도 향상

#llm-compressor #Performance

2026년 3월 18일

[Ray Data] RAPIDS MPF 기반 GPU 셔플 지원으로 GPU 데이터 처리 파이프라인 가속

CPU 경유 없이 GPU 메모리에서 직접 해시 셔플을 수행하는 GPUShuffleOperator를 추가하여 대규모 분산 GPU 데이터 처리를 가속하는 기능 분석.

#Ray #Python #Performance #GPU #Distributed Systems

2026년 3월 17일

[llm-compressor] Intermediates Cache Prefetch - 중간 결과 프리페칭

양자화 캘리브레이션의 중간 결과를 프리페칭하여 레이어 순차 처리의 대기 시간을 감소

#llm-compressor #Performance

2026년 3월 17일

[ray] Ray Serve P99 레이턴시 회귀 수정 — 큐 길이 캐시 미감소 버그

큐 길이 캐시가 증가만 하고 감소하지 않아 발생한 P99 레이턴시 회귀를 수정

#Python #Ray Serve #Performance #Bug Fix #Distributed Systems

2026년 3월 17일

[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료

메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.

#Ray #C++#Performance #OOM #Memory Management

2026년 3월 16일

[vllm] FlashInfer MoE A2A Kernel - NVLink 기반 Expert Parallelism 통신

FlashInfer의 NVLink two-sided/one-sided All-to-All 커널을 통합하여 MoE 모델의 expert parallel 통신 가속

#vllm #Performance

2026년 3월 16일

[Uvicorn] bytes에서 bytearray로 변경하여 HTTP 바디 누적 O(n²) → O(n) 개선

요청 바디 누적에서 bytes += 대신 bytearray +=를 사용하여 O(n²) 메모리 복사를 amortized O(1)로 개선한 분석.

#Uvicorn #Python #Performance #HTTP #ASGI #Memory

2026년 3월 15일

[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거

동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.

#Ray #Python #Performance #Caching #Autoscaler

2026년 3월 13일

[Loki] 쿼리 엔진 캐시 정확성 테스트 추가

결과 캐시의 정확성을 검증하는 통합 테스트로 캐시 히트/미스 시 동일한 결과를 보장.

#Grafana Loki #Go #Performance #Testing #Caching

2026년 3월 13일

[Loki] 포인터 읽기 배치 크기 증가로 인덱스 조회 25% 가속

포인터/블룸 읽기 배치를 128에서 8192로 증가시켜 I/O 효율 개선

#Grafana Loki #DataObj #Batch Size #Performance

2026년 3월 13일

[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화

모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.

#Ray #Python #PyArrow #Performance #Schema #Data Pipeline

2026년 3월 10일

[Loki] query_range 요청에 캐시 비활성화 헤더 지원 추가

Cache-Control 헤더로 query_range 결과 캐시를 비활성화할 수 있도록 개선

#Grafana Loki #Cache #HTTP Headers #Performance

2026년 3월 9일

[Grafana Loki] Thor(V2) 쿼리 엔진에 결과 캐시 미들웨어 추가

메트릭, 인스턴트 메트릭, 로그 쿼리 각각에 독립적인 결과 캐시를 추가하여 반복 쿼리의 GCS/오브젝트 스토어 접근을 제거한 성능 최적화 분석.

#Grafana Loki #Go #Performance #Cache #Query Engine

2026년 3월 9일

[Open WebUI] 채팅 메시지 마이그레이션을 스트리밍+배치 처리로 전환하여 메모리 폭발 방지

fetchall()로 전체 데이터를 메모리에 로드하고 건별 INSERT하던 마이그레이션을 yield_per 스트리밍과 5000건 단위 배치 INSERT로 전환한 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Migration

2026년 3월 8일

[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram Drafting

N-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환

#vllm #Performance

2026년 3월 7일

[Open WebUI] Artifacts 컴포넌트 메모리 누수 수정

Svelte store 구독 해제 누락으로 인한 메모리 누수 해결

#Open WebUI #Svelte #Memory Leak #Performance

2026년 3월 6일

[Open WebUI] N+1 쿼리 제거: Function Valves 일괄 조회 최적화

모델별 액션마다 개별 DB 쿼리를 던지던 N+1 패턴을 WHERE IN 일괄 조회로 개선한 분석.

#Open WebUI #Python #Database #N+1 Query #SQLAlchemy #Performance

2026년 3월 6일

[Open WebUI] 재귀적 메시지 리스트 생성을 반복문으로 전환하여 O(d²) → O(d) 개선

spread 기반 재귀 구현을 push+reverse 반복문으로 변환하여 대화 깊이에 따른 O(d²) 배열 복사를 제거한 분석.

#Open WebUI #TypeScript #Performance #Algorithm #Frontend #Svelte

2026년 3월 6일

[Open WebUI] APIKeyRestrictionMiddleware를 순수 ASGI로 전환하여 스트리밍 오버헤드 제거

BaseHTTPMiddleware를 상속하던 API 키 제한 미들웨어를 순수 ASGI 미들웨어로 변환하여, 스트리밍 응답의 모든 청크가 미들웨어 Python 호출 스택을 통과하던 오버헤드를 제거한 PR을 분석합니다.

#Open WebUI #ASGI #Performance #Python #Middleware #Starlette

2026년 3월 6일

[Open WebUI] TTS 문장 파싱을 showCallOverlay 가드로 감싸 불필요한 O(n^2) 연산 제거

음성 통화 오버레이가 비활성일 때 매 토큰마다 실행되던 정규식 파싱을 완전히 건너뛰도록 가드를 추가한 최적화 분석.

#Open WebUI #Svelte #JavaScript #Performance #TTS #Regex

2026년 3월 6일

[Open WebUI] 스트리밍 중 동일 콘텐츠의 중복 마크다운 파싱을 캐시로 방지

매 애니메이션 프레임마다 실행되던 Markdown 파서에 단순 캐시를 추가하여, 새 토큰이 없을 때 불필요한 파싱을 건너뛰는 최적화 분석.

#Open WebUI #Svelte #Performance #Frontend #Markdown

2026년 3월 6일

[Open WebUI] O(n²) unshift를 O(n) push+reverse로 교체하여 메시지 빌드 최적화

Svelte 프론트엔드에서 Array.unshift() 반복 호출로 인한 O(n²) 병목을 push()+reverse()로 개선한 분석.

#Open WebUI #JavaScript #Performance #Algorithm #Time Complexity

2026년 3월 6일

[Open WebUI] KaTeX 유니코드 정규식 사전 컴파일로 마크다운 렌더링 87% 병목 제거

Open WebUI에서 KaTeX 수식 감지 시 매번 유니코드 정규식을 컴파일하던 병목을 모듈 로드 시 한 번만 컴파일하도록 변경하고, katexStart 함수를 문자 단위 스캔으로 재작성한 최적화를 분석합니다.

#Open WebUI #TypeScript #Performance #Regex #KaTeX #Unicode

2026년 3월 5일

[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거

Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.

#Ray #GPU #NIXL #Tensor Transport #Memory Registration #Performance

2026년 3월 4일

[Ray] 워커 리스너 스레드 최적화: list를 frozenset으로 교체

에러 메시지 폴링 루프에서 매번 생성되던 리스트를 frozenset으로 캐싱

#Ray #Performance

2026년 3월 2일

[feast] Feast Redis 온라인 스토어 Protobuf 파싱 최적화

불필요한 bytes() 변환 제거와 코드 간소화로 Redis 온라인 스토어 응답 처리 최적화

#Python #Redis #Protobuf #Performance #Feature Store

2026년 3월 2일

[Open WebUI] ChatControls 컴포넌트 메모리 누수 수정

onMount/onDestroy 비동기 타이밍 문제를 해결하여 DOM 트리 메모리 누수 방지

#Open WebUI #Performance

2026년 3월 2일

[Ray Serve] Controller 마이크로벤치마크 공식 추가

Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.

#Ray #Python #Performance #Benchmark #Serve

2026년 3월 1일

[Open WebUI] Chat.svelte 비동기 onMount 메모리 누수 수정

비동기 onMount와 동기 onDestroy 간 타이밍 불일치로 인한 DOM 트리 메모리 누수 해결.

#Open WebUI #Svelte #Performance #Memory Leak #Lifecycle

2026년 3월 1일

[Open WebUI] 사용자 메모리 컬렉션 쿼리에 소유권 검증 추가

user-memory 및 file 컬렉션에 대한 접근 권한 검증을 공통 함수로 추출하여 보안 강화.

#Open WebUI #Python #Security #Performance #Refactoring

2026년 3월 1일

[Open WebUI] buildMessages에서 불필요한 객체 스프레드 제거

매 프레임마다 생성되던 100개의 불필요한 복사 객체를 제거하여 GC 부담 감소

#Open WebUI #Performance

2026년 3월 1일

[Open WebUI] MultiResponseMessages에 O(1) Fast-path 비교 추가

JSON.stringify 전체 비교 전에 content/done 필드를 먼저 체크하여 스트리밍 렌더링 최적화.

#Open WebUI #Svelte #Performance #Frontend #Rendering

2026년 3월 1일

[Open WebUI] JSON.parse(JSON.stringify()) 를 structuredClone으로 교체

Chat.svelte의 7곳에서 깊은 복사 방식을 네이티브 structuredClone API로 변경하여 성능 2배 개선.

#Open WebUI #Svelte #JavaScript #Performance #Deep Clone

2026년 3월 1일

[Open WebUI] CodeBlock 토큰 비교 fast-path 최적화

JSON.stringify 대신 O(1) 필드 비교로 스트리밍 렌더링 성능 개선

#Open WebUI #Svelte #Rendering Optimization #Performance

2026년 3월 1일

[Open WebUI] CodeEditor에서 EditorView 미해제로 인한 메모리 누수 수정

CodeMirror EditorView를 컴포넌트 해제 시 destroy하지 않아 발생하던 메모리 누수를 수정하고, 언어 등록을 모듈 수준으로 분리한 분석.

#Open WebUI #Svelte #CodeMirror #Memory Leak #Performance #JavaScript

2026년 3월 1일

[Open WebUI] UserMessage에서 JSON 직렬화 대신 structuredClone과 빠른 경로 비교 적용

JSON.parse/stringify 기반 깊은 복사와 비교를 structuredClone과 content 우선 비교로 대체하여 렌더링 성능을 개선한 최적화.

#Open WebUI #Svelte #Performance #Frontend #JavaScript

2026년 3월 1일

[Open WebUI] 이벤트 이미터에서 DB 호출 비동기화, 중간 상태 저장 제거, elif 체인 적용

소켓 이벤트 이미터의 동기 DB 호출을 asyncio.to_thread로 전환하고, 중간 상태 저장을 제거하며, if 체인을 elif로 변경한 3중 최적화 분석.

#Open WebUI #Python #asyncio #Performance #Database #WebSocket

2026년 3월 1일

[Open WebUI] StatusHistory 비교에 O(1) 길이 검사 추가로 직렬화 비용 절감

Open WebUI의 스트리밍 응답에서 매 프레임마다 JSON.stringify로 상태 히스토리를 비교하던 것에 배열 길이 사전 검사를 추가하여 불필요한 직렬화를 건너뛰는 최적화를 분석합니다.

#Open WebUI #Svelte #Performance #Optimization #Streaming

2026년 3월 1일

[Open WebUI] JSON.parse(JSON.stringify())를 structuredClone으로 교체

객체 딥 복사에 사용되던 JSON 직렬화/역직렬화 패턴을 네이티브 structuredClone API로 교체하고, 불필요한 복사를 제거한 PR을 분석합니다.

#Open WebUI #Performance #JavaScript #structuredClone #Deep Copy

2026년 3월 1일

[Open WebUI] Sidebar 컴포넌트 메모리 누수 수정: onDestroy에서 onMount return으로 전환

Svelte의 onDestroy와 onMount 사이의 타이밍 불일치로 인한 이벤트 리스너 메모리 누수를 수정한 분석.

#Open WebUI #Svelte #Performance #Memory Leak #Event Listener

2026년 3월 1일

[Open WebUI] MentionList 컴포넌트 메모리 누수 수정

비동기 onMount와 동기 onDestroy의 타이밍 문제로 인한 이벤트 리스너 누수 해결

#Open WebUI #Svelte #Memory Leak #Performance

2026년 3월 1일

[Open WebUI] 스트리밍 중 메시지 리스트 재구성을 프레임당 1회로 제한

requestAnimationFrame으로 메시지 리빌드를 쓰로틀링하여 CPU 사용량 감소

#Open WebUI #Performance

2026년 2월 28일

[Open WebUI] Notes.svelte 메모리 누수 수정

비동기 onMount와 동기 onDestroy 간의 경쟁 조건을 해소하여 메모리 누수 방지

#Open WebUI #Performance

2026년 2월 28일

[Open WebUI] 스트리밍 중 scrollToBottom을 rAF로 배치 처리하여 불필요한 리플로우 제거

스트리밍 토큰마다 호출되던 scrollToBottom을 requestAnimationFrame으로 프레임당 최대 1회로 제한하여 레이아웃 리플로우를 대폭 줄인 최적화 분석.

#Open WebUI #Svelte #JavaScript #Performance #Scroll #requestAnimationFrame

2026년 2월 28일

[Open WebUI] JSON.parse(JSON.stringify()) 대신 structuredClone으로 딥 카피 최적화

스트리밍 중 매 토큰마다 실행되는 메시지 딥 카피를 structuredClone()으로 교체하여 문자열 직렬화 오버헤드를 제거한 분석.

#Open WebUI #JavaScript #Performance #Svelte

2026년 2월 28일

[Open WebUI] MessageInput 컴포넌트 메모리 누수 수정: 비동기 이벤트 리스너 생명주기 관리

Svelte 컴포넌트에서 onMount 비동기 실행과 onDestroy 동기 실행의 타이밍 불일치로 발생하는 이벤트 리스너 메모리 누수를 수정한 PR을 분석합니다.

#Open WebUI #Memory Leak #Svelte #Event Listener #Performance

2026년 2월 28일

[Open WebUI] Tooltip 컴포넌트의 tippy 인스턴스 메모리 누수 수정 및 타입 정의 개선

요소 변경 시 이전 tippy 인스턴스가 DOM에 잔존하던 메모리 누수를 destroy 로직 추가로 해결하고, TypeScript 타입을 정밀하게 적용한 분석.

#Open WebUI #Svelte #Performance #Memory Leak #TypeScript

2026년 2월 28일

[Ray] RLlib 커넥터와 배치 유틸리티에 ndarray 빠른 경로 추가

tree 순회를 건너뛰는 numpy 배열 최적화로 학습 핫패스 속도 개선

#Ray #Performance

2026년 2월 27일

[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가

Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.

#Ray #Ray Data #Resource Allocation #Pipeline Optimization #Throughput #Performance

2026년 2월 27일

[Open WebUI] KaTeX 모듈 import를 싱글턴으로 캐싱하여 렌더링 최적화

Open WebUI에서 수학 수식이 포함된 메시지마다 KaTeX를 반복 import하던 비효율을 Svelte의 context='module'을 활용한 싱글턴 패턴으로 해결한 최적화를 분석합니다.

#Open WebUI #Svelte #KaTeX #Performance #Module Cache

2026년 2월 26일

[Open WebUI] ResponseMessage에서 JSON.stringify 비교를 O(1) fast-path로 우회

스트리밍 중 매 토큰마다 발생하는 2회의 O(n) JSON.stringify 호출을 content/done 필드 비교로 우회한 분석.

#Open WebUI #JavaScript #Performance #Svelte #Streaming

2026년 2월 26일

[vllm] --performance-mode: 워크로드별 최적화 프로파일

balanced, interactivity, throughput 3가지 모드로 CUDA Graph 캡처 전략과 배칭 동작을 자동 조정

#vllm #Performance

2026년 2월 26일

[Loki] TSDBIndex.GetChunkRefs에서 불필요한 라벨 조회 제거

청크 참조만 필요한 경우 라벨 디코딩을 건너뛰어 할당 30% 감소

#Grafana Loki #TSDB #Index Optimization #Performance

2026년 2월 25일

[Loki] TSDB 풀에 전체 슬라이스를 올바르게 반환하여 메모리 할당 99.6% 감소

defer 시점의 슬라이스 캡처 버그를 수정하여 오브젝트 풀 효과 복원

#Loki #Performance

2026년 2월 25일

[Open WebUI] get_tools()에서 빈 tool_ids 조기 반환 최적화

tool_ids가 비어있을 때 불필요한 DB 쿼리를 건너뛰는 가드 절 추가

#Open WebUI #Python #Database #Performance

2026년 2월 25일

[Ray Serve] Direct Ingress 최적화: 상수 순서 정리 및 빈 프록시 조기 반환

Ray Serve에서 HAProxy 관련 상수 초기화 순서를 수정하고 빈 proxy handles 순회를 방지하는 간결한 최적화 PR 분석.

#Ray #Ray Serve #Direct Ingress #HAProxy #Performance #Early Return

2026년 2월 25일

[Ray RLlib] space_utils.batch()에서 np.stack 대신 사전 할당 배열로 연결 속도 개선

수백~수천 개의 배열을 배치 처리할 때 np.stack 대신 np.empty로 사전 할당 후 복사하는 방식으로 전환하여 불필요한 연결 오버헤드를 제거한 최적화 분석.

#Ray #Python #Performance #NumPy #RLlib

2026년 2월 25일

[Loki] 싱크에 쓰기 전 레코드 배치 처리로 라운드트립 감소

개별 레코드 전송을 배치로 묶어 싱크 쓰기 대기 시간을 크게 줄임

#Loki #Performance

2026년 2월 24일

[Loki] 빈 레이블 제거에 더 단순한 함수 사용

labels.NewBuilder().Labels() 대신 WithoutEmpty()로 불필요한 할당 제거

#Loki #Performance

2026년 2월 24일

[Ray] 다중 gRPC 연결로 오브젝트 전송 처리량 향상

GRPC_ARG_USE_LOCAL_SUBCHANNEL_POOL 옵션으로 오브젝트 매니저의 gRPC 연결을 다중화하여 전송 대역폭을 확대한 분석.

#Ray #C++#Performance #gRPC #Networking

2026년 2월 24일

[Loki] 쿼리 엔진 정합성 테스트 병렬 실행으로 CI 시간 15% 단축

Grafana Loki의 구/신 쿼리 엔진 정합성 테스트에서 순차 실행되던 두 엔진 쿼리를 errgroup을 활용해 병렬로 실행하여 전체 테스트 시간을 15% 줄인 최적화를 분석합니다.

#Grafana Loki #Go #Testing #Performance #Parallelism #errgroup

2026년 2월 24일

[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결

Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.

#Ray #Python #Performance #Deadlock #Memory Management #Data Pipeline

2026년 2월 24일

[Grafana Loki] 오브젝트 스토어 클라이언트에 요청 레이턴시 히스토그램 메트릭 추가

기존 Thanos 클라이언트의 e2e 메트릭과 별개로, 요청 헤징 후 실제 라운드트립 레이턴시를 측정하는 네이티브 히스토그램 메트릭을 추가한 분석.

#Grafana Loki #Go #Performance #Observability #Prometheus

2026년 2월 24일

[Grafana Loki] 쿼리 엔진 aggregator의 자료구조를 개선하여 38% 성능 향상

groupState에서 라벨 데이터를 분리하고, 라벨 목록을 맵으로 변경하며, BuildRecord의 선형 탐색을 제거하여 메트릭 쿼리 실행 시간을 38% 단축한 분석.

#Grafana Loki #Go #Performance #Query Engine #Data Structure #Aggregation

2026년 2월 24일

[Grafana Loki] 블룸 필터 캐시를 맵으로 교체하여 운영 복잡도 제거

ingest-limits-frontend의 스트림 캐시에서 블룸 필터를 Go map으로 교체하여, 사전 크기 설정 불필요와 false positive 제거를 동시에 달성한 분석.

#Grafana Loki #Go #Performance #Cache #Data Structure

2026년 2월 23일

[Open WebUI] 메시지 전송마다 발생하는 불필요한 채팅 JSON 역직렬화 2회 제거

메시지 전송 시 소유권 확인과 폴더 조회를 위해 전체 채팅 JSON을 2번 불필요하게 역직렬화하던 문제를 EXISTS 쿼리와 단일 컬럼 조회로 해결한 PR 분석.

#Open WebUI #Database #SQLAlchemy #Query Optimization #Performance

2026년 2월 21일

[faster-qwen3-tts] 공식 Qwen3-TTS 기반으로 포팅 및 벤치마크 대폭 향상

커뮤니티 streaming fork에서 공식 Qwen3-TTS 저장소로 기반을 전환하고, repetition penalty 벡터화로 RTF 5.56 달성

#faster-qwen3-tts #TTS #CUDA Graphs #Performance

2026년 2월 20일

[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화

표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.

#Grafana Loki #Go #Performance #Encoding #Benchmark #Data Object

2026년 2월 20일

[Open WebUI] 채팅 목록 조회 시 불필요한 전체 JSON 로딩 제거

Open WebUI의 고정/보관/공유 채팅 목록 API에서 전체 ChatModel을 로딩하던 것을 with_entities()로 필요한 컬럼만 조회하도록 변경하여 DB 부하와 메모리 사용량을 줄인 최적화를 분석합니다.

#Open WebUI #Python #SQLAlchemy #Database #Performance #Query Optimization

2026년 2월 19일

[Open WebUI] 채팅 제목 조회 시 전체 대화 로드 대신 title 컬럼만 직접 쿼리

get_chat_title_by_id에서 전체 ChatModel을 로드하던 것을 Chat.title 컬럼만 조회하도록 변경하여 DB 부하를 줄인 분석.

#Open WebUI #Python #Performance #Database #SQLAlchemy

2026년 2월 19일

[Open WebUI] O(n²) 시간 복잡도 메시지 리스트 생성 버그 수정

list.insert(0) 대신 append+reverse로 변경하여 대화 기록 구성의 O(n²) 병목을 O(n)으로 개선한 분석.

#Open WebUI #Python #Performance #Algorithm #Time Complexity

2026년 2월 19일

[Open WebUI] 공유 채팅 목록에서 불필요한 JSON 역직렬화를 제거하여 응답 속도 개선

전체 Chat 행을 로드하던 공유 채팅 목록 API를 컬럼 프로젝션으로 전환하여, 대용량 대화 JSON 역직렬화를 완전히 제거한 최적화 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 2월 19일

[Grafana Loki] 범위 집계를 병렬 파티션으로 푸시다운하여 쿼리 처리 최적화

결합법칙/교환법칙이 성립하는 집계 연산을 parallelPushdown 최적화에 적용하여, 네트워크 전송량 감소와 파이프라인 병목 해소를 동시에 달성한 분석.

#Grafana Loki #Go #Performance #Query Optimization #Parallel Processing

2026년 2월 19일

[feast] Feast 성능 최적화: 엔티티 키 직렬화 Hot Path 2.4배 개선하기

Feast의 온라인 스토어 성능을 좌우하는 엔티티 키 직렬화 로직을 Fast Path 도입과 memoryview 활용으로 최대 141% 개선한 사례를 분석합니다.

#Python #Performance #Feast #Optimization #Zero-copy

2026년 2월 19일

[Feast] Feast 엔티티 키 직렬화 핫패스 최적화

single-entity fast path와 memoryview zero-copy 슬라이싱으로 직렬화/역직렬화 성능을 개선

#Feast #Feature Store #Serialization #Performance

2026년 2월 19일

[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상

Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.

#Ray #RLlib #Python #Performance #Reinforcement Learning #Optimization

2026년 2월 19일

[Ray Core] Memory Monitor의 OS별 조건부 컴파일 패턴 적용

메모리 모니터를 인터페이스 분리 + OS별 빌드로 리팩토링하여 유지보수성과 확장성 개선.

#Ray #C++#Performance #Memory Management #Architecture

2026년 2월 18일

[pydantic-ai] Temporal/DBOS MCP 서버에서 매번 도구 목록을 다시 가져오는 문제 수정

Temporal과 DBOS의 MCP 래퍼에서 캐시된 도구 정의를 활용하여 불필요한 MCP 서버 왕복을 제거한 사례를 분석합니다.

#pydantic-ai #MCP #DBOS #Temporal #Caching #Performance

2026년 2월 19일

[Ray] ExecutionCache 도입으로 데이터셋 캐싱 로직 통합 및 간소화

산재된 스냅샷 변수들을 ExecutionCache 클래스로 통합하고, 반복 실행과 일반 실행의 캐시 검증을 일관되게 만든 분석.

#Ray #Python #Refactoring #Cache #Performance #Data Pipeline

2026년 2월 18일

[Grafana Loki] 프론트엔드 캐시를 리팩터링하고 캐시된 스트림을 요청에서 필터링

acceptedStreamsCache로 캐시를 분리하고, 이미 승인된 스트림을 요청에서 제거하여 백엔드 부하를 줄이며, 블룸 필터 메트릭을 추가한 분석.

#Grafana Loki #Go #Performance #Bloom Filter #Cache #Metrics

2026년 2월 18일

[vllm] Decode Context Parallel - GPU Model Runner V2용 디코드 단계 컨텍스트 병렬화

디코드 단계에서 긴 컨텍스트의 KV cache를 여러 GPU에 분산하여 메모리 효율과 throughput을 동시 개선

#vllm #Performance

2026년 2월 18일

[llm-compressor] DataLoader 최적화와 Single-pass Weight Calibration

DataLoader 옵션 확장과 단일 패스 가중치 캘리브레이션으로 양자화 파이프라인 속도와 유연성 개선

#llm-compressor #Performance

2026년 2월 18일

[Ray] memory_full_info 호출 제거로 ML 학습 성능 저하 문제 해결

Ray에서 프로세스 메모리 모니터링 시 비용이 큰 memory_full_info 호출을 제거하고, memory_info로부터 USS를 근사 추정하여 ML 학습 중 성능 저하를 해결한 최적화를 분석합니다.

#Ray #Python #Performance #Memory Monitoring #psutil #ML Training

2026년 2월 18일

[pydantic-ai] Depot 러너와 inline_snapshot 우회로 CI 성능 대폭 개선

Depot 4코어 러너 도입과 inline_snapshot 경량 스텁으로 pytest-xdist 워커 초기화를 크게 가속화한 사례를 분석합니다.

#pydantic-ai #CI/CD #Performance #GitHub Actions #Testing

2026년 2월 17일

[pydantic-ai] 로컬 테스트 성능 개선: coverage 분리와 fixture 최적화

make test에서 coverage를 분리하고 module-scope fixture로 모델 로딩 횟수를 줄여 로컬 개발 테스트 속도를 개선한 사례를 분석합니다.

#pydantic-ai #Testing #Performance #Developer Experience #Makefile

2026년 2월 17일

[Loki] Bloom Filter로 ExceedsLimits 요청의 백엔드 트래픽 대폭 감소

이미 허용된 스트림을 블룸 필터로 캐싱하여 불필요한 RPC 호출 제거

#Loki #Performance

2026년 2월 17일

[Ray Data] 클러스터 오토스케일러에 논리 메모리 사용률 지표를 추가하여 스케일링 정확도 향상

CPU/GPU/Object Store 메모리만 감시하던 ResourceUtilizationGauge에 논리 메모리를 추가하여, 메모리 부족 시에도 올바르게 스케일업하도록 개선한 분석.

#Ray #Python #Performance #Autoscaler #Observability

2026년 2월 17일

[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선

Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.

#Ray #RLlib #Performance #Python #Connector #Reinforcement Learning

2026년 2월 13일

[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로

Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.

#Ray #Ray Serve #Performance #Scheduling #Python #Optimization

2026년 2월 13일

[Loki] Rate Batcher 도입으로 UpdateRates RPC 호출 대폭 감소

O(D*P)/초의 RPC를 O(P)/30초로 배치하여 프론트엔드 부하 최소화

#Loki #Performance

2026년 2월 12일

[CPython] PEP 810 -- CPython에 명시적 Lazy Import 구현

lazy 소프트 키워드로 import 시점을 지연시켜 Python 시작 시간을 단축하는 PEP 810 구현 분석

#Python #CPython #Performance #Import System

2026년 2월 12일

[Open WebUI] 모델 캐시 활용으로 TTFT(첫 토큰 도달 시간) 대폭 단축

매 채팅 요청마다 모든 백엔드에서 모델 목록을 가져오던 get_all_models() 호출을 캐시 우선 조회로 변경하여 TTFT를 크게 개선한 PR을 분석합니다.

#Open WebUI #Performance #Python #TTFT #Caching

2026년 2월 12일

[Open WebUI] Redis 설정 조회 캐싱으로 /api/models 응답 속도 개선

Open WebUI에서 매 루프 반복마다 Redis에서 설정값을 읽어오던 패턴을 로컬 변수 캐싱으로 변경하여 수백 번의 불필요한 Redis 라운드트립을 제거한 PR을 분석합니다.

#Open WebUI #Redis #Performance #Python #API Optimization

2026년 2월 11일

[Grafana Loki] cmp.Diff 대신 cmp.Equal로 상태 비교를 단순화

Kubernetes 컨트롤러에서 변경 감지를 위해 diff 문자열 생성 후 빈 문자열 비교하던 것을 Equal로 교체한 최적화 분석.

#Grafana Loki #Go #Kubernetes #Operator #Performance

2026년 2월 11일

[Open WebUI] Knowledge 파일 배치 추가 시 N+1 쿼리 제거

파일 배치 추가 엔드포인트에서 개별 쿼리를 IN 절 단일 쿼리로 변경하여 N+1 문제 해결.

#Open WebUI #Python #Performance #Database #N+1 Query

2026년 2월 9일

[Ray Serve] stop_replicas()의 pop-all/re-add 사이클 제거

전체 replica를 pop했다 re-add하는 방식 대신, ID set 기반 단일 패스 remove로 최대 6배 속도 향상.

#Ray #Python #Performance #Serve #Algorithm

2026년 2월 9일

[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱

매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.

#Ray #Python #Performance #Serve #Caching

2026년 2월 9일

[Ray Serve] ClusterNodeInfoCache 정렬 버그 수정 및 중복 GCS RPC 제거로 캐시 갱신 최적화

sorted() 반환값 무시 버그, 중복 GCS 연결, 매 틱마다 정적 데이터 재구축 문제를 한꺼번에 수정한 최적화 분석.

#Ray #Python #Performance #Cache #Distributed Systems

2026년 2월 9일

[Loki] memory.Bitmap 슬라이싱 지원: 비정렬 오프셋 처리

Loki의 memory.Bitmap에 슬라이싱 기능을 추가하고, 워드 경계에 정렬되지 않은 비트맵의 연산을 지원하도록 개선한 PR 분석.

#Grafana Loki #Go #Bitmap #Memory #Data Structure #Performance

2026년 2월 6일

[Loki] 대소문자 무시 정규식을 바이너리 연산자로 최적화

정규식 엔진 대신 바이트 단위 대소문자 무시 비교 연산자를 도입하여 case-insensitive 매칭 성능을 대폭 개선한 분석.

#Loki #Go #Performance #Regex #Query Engine

2026년 2월 5일

[vllm] Unified Parallel Drafting - Speculative Decoding 통합 프레임워크

Eagle, NGram, Suffix 등 다양한 spec decode 방식을 하나의 병렬 drafting 프레임워크로 통합

#vllm #Performance

2026년 2월 5일

[Ray] MapBatches 행 수 변경 시에도 연산자 퓨전을 유지하도록 수정

MapBatches가 행 수를 변경할 수 있음에도 연산자 퓨전을 허용하여, 역사적 동작을 보존하고 회귀를 방지한 분석.

#Ray #Python #Performance #Operator Fusion #Data Pipeline

2026년 2월 4일

[Loki] 인덱스 빌더에서 오브젝트 다운로드 시 슬라이스 사전 할당으로 메모리 효율화

io.ReadAll 대신 오브젝트 크기 기반 사전 할당으로 인덱스 빌드 시 불필요한 메모리 재할당을 제거한 분석.

#Loki #Go #Performance #Memory Allocation #Object Storage

2026년 2월 2일

[triton] Reduce 커널에 Unpadded Batch Size 핸들링 추가

Triton Kernels의 reduce 커널에 unpadded batch size를 지원하여 패딩된 배치에서 불필요한 연산을 건너뛰도록 개선한 PR 분석.

#Triton #TritonKernels #Reduce #Padding #BatchSize #Performance

2026년 1월 30일

[uvloop] uvloop의 SSL 성능 최적화: SSLWantReadError 비용 줄이기

SSLWantReadError 예외 발생을 최소화하여 SSL 읽기 성능을 개선한 uvloop의 최적화 사례를 분석합니다.

#uvloop #Python #SSL #Performance #Optimization

2026년 1월 30일

[pytorch] PyTorch CUDA 메모리 스냅샷 최적화 — 트레이스 선택적 포함

include_traces 옵션으로 CUDA 메모리 스냅샷의 트레이스 수집을 건너뛰어 성능을 대폭 개선한다

#PyTorch #CUDA Memory #Performance #Memory Profiling

2026년 1월 30일

[uvloop] uvloop의 SSL 성능 최적화: Python Vectorcall 우회하기

Python의 vectorcall 인터페이스 대신 C 레벨의 직접 호출과 인라인화를 통해 SSLProtocol 성능을 개선한 사례 분석.

#Python #uvloop #Performance #Optimization #SSL

2026년 1월 30일

[Open WebUI] 필터 함수 배치 조회로 N+1 쿼리 제거

N개의 개별 DB 쿼리를 1개의 IN 쿼리로 통합하여 성능 개선

#Open WebUI #Database #N+1 Query #Performance

2026년 1월 29일

[Loki] memory/columnar API를 Go 관용구에 맞게 리팩터링

Make* 생성자를 New*로 통일하여 Go 표준 네이밍 컨벤션 준수

#Loki #Performance

2026년 1월 29일

[Open WebUI] 메모리 업데이트 후 불필요한 재조회 쿼리 제거

update_memory_by_id에서 커밋 후 별도 세션으로 다시 조회하던 패턴을 db.refresh로 대체하여 쿼리 수를 절반으로 줄인 최적화.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 1월 29일

[Open WebUI] DB 쿼리 최적화: 루프 삭제를 벌크 연산으로 교체

Open WebUI의 functions, feedbacks, groups 모델에서 불필요한 재조회와 루프 기반 삭제를 제거하여 데이터베이스 쿼리를 최적화한 PR 분석.

#Open WebUI #Database #SQLAlchemy #Bulk Delete #Performance

2026년 1월 29일

[Open WebUI] SCIM 그룹 변환에서 N+1 쿼리를 배치 조회로 제거

SCIM group_to_scim 함수에서 멤버마다 개별 쿼리를 보내던 N+1 문제를 단일 배치 조회로 해결한 최적화 분석.

#Open WebUI #Python #Performance #N+1 Query #SCIM

2026년 1월 29일

[Grafana Loki] JSON 파서에서 bytes.Runes() 할당을 in-place UTF-8 디코딩으로 제거

쿼리 엔진 워커의 JSON 키 정제 과정에서 매번 새 슬라이스를 할당하던 bytes.Runes()를 utf8.DecodeRune으로 교체하고, JSON 파서 재사용과 요청 키 프리필터링을 추가한 최적화 분석.

#Grafana Loki #Go #Performance #Memory Allocation #JSON Parser

2026년 1월 29일

[Open WebUI] users.py의 5개 업데이트 메서드에서 중복 SELECT 쿼리 제거

UPDATE 후 별도 SELECT로 재조회하던 패턴을 fetch-modify-refresh 패턴으로 통일하여 쿼리 수를 절반으로 줄인 최적화.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 1월 29일

[uvloop] uvloop 성능 최적화: Python C API를 활용한 Context 진입/탈출 개선

Python의 context.run() 대신 C API를 직접 호출하여 오버헤드를 줄이고 성능을 개선한 사례를 분석합니다.

#uvloop #Python #Performance #Cython #C-API

2026년 1월 28일

[Loki] 인덱스 빌더 크기 추정 최적화: 반복 계산 제거로 97% 성능 개선

Grafana Loki의 데이터 객체 인덱스 빌더에서 매번 모든 테넌트를 순회하며 크기를 계산하던 방식을 증분 추적으로 변경하여 97%의 성능 향상을 달성한 PR을 분석합니다.

#Grafana Loki #Performance #Go #Index Builder #Optimization

2026년 1월 28일

[Open WebUI] asyncio.gather로 이미지 로딩 병렬화하여 지연시간 단축

Open WebUI의 image_edits 엔드포인트에서 여러 이미지를 순차 로딩하던 것을 asyncio.gather를 활용한 병렬 로딩으로 변경하여 지연시간을 크게 줄인 최적화를 분석합니다.

#Open WebUI #Python #asyncio #Performance #Parallelism

2026년 1월 27일

[Open WebUI] 검색 쿼리 디바운스 적용으로 불필요한 DB 요청 감소

Open WebUI의 여러 관리 페이지와 검색 기능에서 키 입력마다 발생하던 DB 쿼리를 200~300ms 디바운스로 묶어 백엔드 부하를 줄인 최적화를 분석합니다.

#Open WebUI #Svelte #Performance #Debounce #Database #UX

2026년 1월 27일

[triton] CUDA 가변 인자 Pre-compiled Launcher로 커널 런치 오버헤드 제거

Triton의 CUDA/HIP 커널 런처를 Python 문자열 치환 방식에서 C 기반 가변 인자 방식으로 전환하여 런치 오버헤드를 제거한 PR을 분석합니다.

#Triton #CUDA #HIP #Runtime #Performance

2026년 1월 21일

[Loki] Thor 쿼리 엔진 메모리 최적화 Part 3: 불필요한 스키마 재생성 제거

Arrow 스키마 재생성과 필드 복사를 제거하여 쿼리 엔진의 메모리 할당을 추가 절감한 분석.

#Loki #Go #Performance #Memory Allocation #Apache Arrow

2026년 1월 21일

[Loki] Partition Ring 셔플 샤딩 캐시 크기를 설정 플래그로 추출

하드코딩된 셔플 샤딩 캐시 크기를 런타임 설정 플래그로 추출하여 테넌트 수에 따라 조정 가능하게 만든 분석.

#Loki #Go #Performance #Configuration #Caching

2026년 1월 21일

[Loki] Thor 쿼리 엔진 메모리 최적화 Part 2: 식별자 캐싱과 빌더 Reserve

FQN 파싱 결과를 캐싱하고 Arrow 빌더에 Reserve를 적용하여 실행 시간 7%, 메모리 할당 12% 절감한 분석.

#Loki #Go #Performance #Memory Allocation #Caching

2026년 1월 21일

[Triton] Proton 프로파일러에서 불필요한 lock 추가 제거

PhaseStore를 분리하고 atomic 연산을 활용하여 프로파일링 오버헤드를 줄이는 lock 최적화

#Triton #Proton #Profiler #Performance #Concurrency

2026년 1월 21일

[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선

Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.

#Triton #Compiler #Optimization #LLVM #Performance

2026년 1월 20일

[Loki] 부모-자식 메모리 할당자 도입으로 계층적 메모리 수명 관리

쿼리 엔진의 메모리 할당자에 부모-자식 관계를 추가하여 할당/해제 수명을 계층적으로 관리하는 최적화 분석.

#Loki #Go #Performance #Memory Management #Allocator

2026년 1월 20일

[Grafana Loki] dataobj pageReader의 메모리 할당을 Reclaim과 Bitmap 직접 전달로 최적화

pageReader.read()에서 Reset 대신 Reclaim을 사용하고, presence 비트맵을 직접 전달하여 불필요한 할당을 줄인 dataobj 읽기 경로 최적화 분석.

#Grafana Loki #Go #Performance #Memory Allocation #Data Object

2026년 1월 20일

[Loki] Bitmap 디코더 최적화: 처리량 93.5% 개선

Loki dataobj의 bitmap 디코더를 boolean 전용으로 특수화하고 memory.Bitmap으로 전환하여 처리량을 93.5% 개선한 PR 분석.

#Grafana Loki #Go #Bitmap #Decoder #Performance #Data Object

2026년 1월 19일

[vllm] Draft Model 기반 Speculative Decoding 지원

별도의 소형 draft 모델을 활용한 speculative decoding을 vLLM V1 엔진에 공식 통합

#vllm #Performance

2026년 1월 19일

[llm-compressor] Memoryless Observers - 메모리 효율적 가중치 관찰자

양자화 캘리브레이션의 가중치 관찰자를 memoryless 방식으로 전환하여 메모리 사용량 대폭 감소

#llm-compressor #Performance

2026년 1월 19일

[Loki] memory 서브패키지 통합으로 코드 구조 개선

memory/bitmap, memory/buffer를 memory 패키지로 통합하여 중복 제거

#Grafana Loki #Go #Refactoring #Performance

2026년 1월 16일

[Ray Serve] 레플리카 라우팅 데이터 구조 최적화: O(n) 스캔을 O(1) 딕셔너리 룩업으로 교체

Ray Serve의 요청 라우터에서 O(n) 선형 스캔을 O(1) 딕셔너리 인덱스로 교체하고, 해시 캐싱과 메트릭 쓰로틀링을 추가한 종합 최적화 분석.

#Ray #Python #Performance #Data Structures #Serving

2026년 1월 16일

[Loki] Delta Decoder 최적화로 3배 처리량 개선

streamio.Reader 인터페이스 제거와 직접 바이트 슬라이스 접근으로 delta decoder 성능 60% 향상.

#Grafana Loki #Go #Performance #Encoding #Data Pipeline

2026년 1월 15일

[triton] moveUpTranspose 최적화 제거 PR의 Revert - 회귀 방지

일부 워크로드에서 성능 회귀를 유발한 moveUpTranspose 제거를 되돌려, TransposeOp 재배치 최적화를 복원한 PR을 분석합니다.

#Triton #AMD #Revert #Performance #Regression

2026년 1월 15일

[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상

Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.

#Grafana Loki #Go #Performance #Decoder #Memory Optimization #Benchmark

2026년 1월 15일

[Triton] Proton에서 선택적 커널 메타데이터 기록 및 커스텀 메트릭 지원

LaunchHook에 include/exclude 필터와 임의 메트릭 지원을 추가하여 프로파일링 유연성 향상

#Triton #Proton #Profiler #Metadata #Performance

2026년 1월 15일

[Loki] Plain 디코더 벤치마크 추가 및 코드 개선

Loki dataobj의 plain bytes 디코더에 체계적인 벤치마크를 추가하고, 불필요한 조건 체크를 제거하여 디코딩 성능을 개선한 PR 분석.

#Grafana Loki #Go #Benchmarking #Decoder #Data Object #Performance

2026년 1월 14일

[Grafana Loki] pkg/dataobj를 위한 실험적 arena 스타일 메모리 패키지 도입

메모리 영역을 회수하고 재사용할 수 있는 arena 스타일 Allocator와 비트맵/버퍼 유틸리티를 새로 도입한 분석.

#Grafana Loki #Go #Memory Management #Arena Allocator #Performance #Bitmap

2026년 1월 14일

[Grafana Loki] 델타 디코더 벤치마크 개선 및 Decode 메서드 성능 측정 추가

단일 값 decode 벤치마크를 배치 단위 Decode 메서드 벤치마크로 재작성하고, 처리량 메트릭과 errors.Is 최적화를 추가한 분석.

#Grafana Loki #Go #Performance #Benchmark #Encoding

2026년 1월 14일

[Open WebUI] 메모리 리셋 API에서 커넥션 풀 고갈을 방지하는 치명적 버그 수정

POST /reset 엔드포인트가 100개 이상의 병렬 임베딩 호출 동안 DB 커넥션을 점유하여 전체 앱이 마비되던 문제를 수정한 분석.

#Open WebUI #Python #SQLAlchemy #Connection Pool #asyncio #Performance

2026년 1월 11일

[Open WebUI] 텔레메트리에서 효율적인 COUNT 쿼리로 커넥션 풀 고갈 방지

전체 테이블 로드 대신 COUNT(*) 쿼리를 사용하여 DB 연결 풀 고갈 해결

#Open WebUI #Performance

2026년 1월 10일

[vllm] MORI KV Connector - ROCm 기반 Prefill-Decode Disaggregation

ROCm 플랫폼에서 MORI 라이브러리를 활용한 KV cache 전송 커넥터로 PD disaggregation 지원

#vllm #Performance

2026년 1월 9일

[PyTorch] MPS mul 성능 회귀 수정

Apple MPS 백엔드의 broadcast/scalar 연산에 전용 Metal 커널을 추가하여 성능 회귀를 수정한다

#PyTorch #MPS #Metal #Performance

2026년 1월 9일

[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원

vLLM에 gRPC 서버 엔트리포인트를 추가하여 REST API 대비 낮은 latency와 높은 throughput의 통신 제공

#vllm #Performance

2026년 1월 8일

[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정

iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.

#Ray #Python #Performance #Benchmark #Training

2026년 1월 8일

[Loki] 새 쿼리 엔진 메모리 할당 최적화: 객체 수 32% 감소

Loki의 새 쿼리 엔진에서 Arrow 빌더 사전 할당, 문자열 캐싱, 슬라이스 재사용 등으로 메모리 할당 객체 수를 32% 줄인 PR 분석.

#Grafana Loki #Go #Memory Allocation #Query Engine #Apache Arrow #Performance

2026년 1월 7일

[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상

K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화

#Triton #NVIDIA #Performance #WGMMA #Pipelining

2026년 1월 7일

[triton] Proton의 Runtime과 Metric 상관관계 단순화로 오버헤드 감소

Proton 프로파일러의 Data/Metric 인터페이스를 재설계하여 이중 잠금과 불필요한 조회를 제거하고 프로파일링 오버헤드를 줄인 사례를 분석합니다.

#Triton #Proton #Profiling #Performance #Refactoring

2026년 1월 4일

[cpython] gh-124951: base64 인코딩/디코딩 2~3배 속도 향상 — CPU 파이프라이닝 최적화

lookup table 정렬과 loop-carried dependency 제거로 base64 처리 속도를 2~3배 개선

#Python #CPython #Performance #base64 #C

2026년 1월 2일

[Open WebUI] mammoth 라이브러리 동적 로딩으로 페이지 초기 로드 301KB 절감

DOCX 파일 처리를 위한 mammoth 라이브러리를 정적 import에서 동적 import로 변경하여, 초기 번들 크기를 301KB 줄인 PR을 분석합니다.

#Open WebUI #Performance #Bundle Size #Dynamic Import #TypeScript

2025년 12월 30일

[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거

async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상

#vllm #Performance

2025년 12월 29일

[Open WebUI] xlsx 라이브러리 동적 로딩으로 번들 868KB 감소

정적 import를 dynamic import로 전환하여 초기 페이지 로딩 속도 개선

#Open WebUI #Bundle Size #Dynamic Import #Performance

2025년 12월 28일

[Open WebUI] YAML 라이브러리 동적 로딩으로 번들 130KB 감소

정적 import 대신 동적 import()로 yaml 라이브러리를 필요 시에만 로드하여 초기 번들 크기 절감.

#Open WebUI #TypeScript #Performance #Bundle Size #Code Splitting

2025년 12월 28일

[pydantic-ai] 테스트 스위트에서 불필요한 asyncio.sleep 제거

Google 파일 검색, OpenAI 응답 모델 등 다수 테스트에서 불필요한 asyncio.sleep과 VCR 마커를 제거하여 테스트 속도를 개선한 사례를 분석합니다.

#pydantic-ai #Testing #Performance #asyncio #Cleanup

2025년 12월 28일

[vllm] --max-model-len auto: GPU 메모리에 맞춘 자동 컨텍스트 길이 설정

max-model-len을 auto(-1)로 설정하면 사용 가능한 GPU 메모리에 맞춰 최대 컨텍스트 길이를 자동 결정

#vllm #Performance

2025년 12월 24일

[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상

gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다

#Triton #AMD #AsyncCopy #GPU Pipeline #Performance

2025년 12월 23일

[Triton] AMD RDNA에서 matmul_ogs 설정 최적화 — 최대 46% 성능 향상

RDNA3/4 GPU에서 block_m/block_n/block_k 설정을 조정하여 레지스터 스필링 해결

#Triton #AMD #RDNA #Performance #Kernel Tuning

2025년 12월 22일

[triton] Triton에서 cuBLAS를 활용한 mxfp8 및 nvfp4 블록 스케일 행렬 곱셈 벤치마킹

Triton의 블록 스케일 행렬 곱셈 성능을 검증하기 위해 cuBLAS 기반의 베이스라인을 도입하고 튜토리얼을 개선했습니다.

#Triton #cuBLAS #mxfp8 #nvfp4 #Performance

2025년 12월 19일

[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입

dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.

#Grafana Loki #Go #Performance #Memory Management #Caching

2025년 12월 19일

[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선

batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거

#Ray #Operator Fusion #Data Pipeline #Performance

2025년 12월 19일

[Ray Serve] 라우터 큐 대기 시간 메트릭 추가

요청이 큐에서 레플리카에 할당되기까지의 대기 시간을 측정하는 메트릭 도입

#Ray #Performance

2025년 12월 16일

[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환

Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.

#Ray #Ray Data #Batching #ray.get #iter_batches #Performance

2025년 12월 15일

[Triton] MXFP4→BF16 변환에서 mul.bf16x2 강제 사용 — 1% MoE 성능 향상

LLVM 자동 벡터화 실패를 우회하여 ptxas가 HMUL2 명령어를 생성하도록 유도

#Triton #NVIDIA #Performance #PTX #Inline Assembly

2025년 12월 11일

[vllm] group_topk 커널 최적화 - 1.9% Throughput, 2.1% TPOT 개선

MoE 라우팅의 group_topk CUDA 커널을 템플릿 기반으로 최적화하여 분기 제거와 루프 언롤링 적용

#vllm #Performance

2025년 12월 9일

[Ray] 단일 노드 RDT 마이크로벤치마크 도입

NCCL/GLOO 기반 텐서 전송의 처리량과 지연 시간을 정밀 측정하는 벤치마크 추가

#Ray #Performance

2025년 12월 9일

[CPython] CPython RemoteUnwinder 프레임 캐싱으로 메모리 읽기 최적화

last_profiled_frame 포인터와 프레임 캐시로 원격 프로파일링 시 메모리 읽기를 대폭 줄이는 최적화

#Python #CPython #Profiling #Performance

2025년 12월 6일

[llm-compressor] Disable LM Head - 불필요한 LM Head 연산 비활성화

양자화 캘리브레이션에서 LM Head 레이어의 forward pass를 비활성화하여 시간과 메모리 절약

#llm-compressor #Performance

2025년 12월 5일

[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거

Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.

#Ray #Python #Performance #Operator Fusion #Distributed Computing

2025년 12월 3일

[vllm] xxHash로 Prefix Caching 해싱 성능 가속

고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선

#vllm #Performance

2025년 12월 3일

[Triton] 성능 진단 테스트에서 stack trace 생성 비활성화

diagnostics context에서 stacktraces 옵션 제거로 테스트 시간 15분 → 1초 이하로 단축

#Triton #Testing #Performance #Developer Experience

2025년 12월 3일

[vllm] W4A8 Marlin 커널 - 4비트 가중치 + 8비트 활성화 양자화

Marlin 커널에 W4A8 지원을 추가하여 4비트 가중치와 8비트 활성화의 혼합 정밀도 추론 가능

#vllm #Performance

2025년 11월 29일

[Loki] 페이지 빌더 메모리 사전 할당 제거로 희소 컬럼 메모리 효율 개선

Grafana Loki의 dataobj 페이지 빌더에서 최대 페이지 크기만큼 메모리를 사전 할당하던 것을, Go의 자연스러운 슬라이스 성장에 맡겨 희소 컬럼의 메모리 오버헤드를 줄인 최적화를 분석합니다.

#Grafana Loki #Go #Memory #Performance #Data Object

2025년 11월 27일

[Loki] 테넌트 rate limit 기반 셔플 샤딩으로 쿼리 성능 향상

Grafana Loki의 distributor에서 테넌트별 ingestion rate limit을 기반으로 셔플 샤딩을 적용하여, 저볼륨 테넌트의 세그먼트 키를 동일 파티션에 모아 쿼리 성능을 향상시킨 최적화를 분석합니다.

#Grafana Loki #Go #Performance #Sharding #Distributed Systems #Query Optimization

2025년 11월 24일

[Grafana Loki] 파서의 문자열 인턴 셋에서 키 충돌 결과 캐싱 버그 수정

internedStringSet이 키 충돌(duplicate suffix) 결과까지 캐싱하여 다른 스트림에 잘못된 라벨이 적용되던 버그를, 충돌 감지를 캐시 밖으로 이동하여 수정한 분석.

#Grafana Loki #Go #Bug Fix #Parser #Performance

2025년 11월 24일

[Open WebUI] 외부 임베딩 API 호출을 병렬화하여 50배 성능 향상

순차적으로 배치 처리하던 외부 임베딩 요청을 asyncio.gather로 병렬 실행하고, 동기 함수를 async로 전환하여 대규모 문서 처리 속도를 극적으로 개선한 최적화.

#Open WebUI #Python #Performance #asyncio #Embeddings #RAG

2025년 11월 23일

[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속

ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화

#Ray #PyTorch #Apache Arrow #Performance

2025년 11월 22일

[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진

vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선

#vllm #Performance

2025년 11월 21일

[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화

iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.

#Ray #Python #Performance #Prefetch #Latency #Data Pipeline

2025년 11월 20일

[Ray] Ray 대규모 리소스 뷰 동기화 -- 메시지 배칭으로 개선

RaySyncer의 gRPC 스트리밍에 메시지 배칭을 도입해 대규모 클러스터의 리소스 동기화 효율을 높이다

#Ray #Distributed Systems #gRPC #Performance

2025년 11월 20일

[ultralytics] COCO Segmentation 검증 300% 속도 향상 — RLE 인코딩 벡터화

ThreadPool + faster_coco_eval 의존성을 PyTorch 벡터화 RLE로 교체하여 검증 속도 3배 향상

#Python #PyTorch #YOLO #Performance #Segmentation

2025년 11월 18일

[Loki] fsGroupChangePolicy=OnRootMismatch로 Pod 시작 속도 향상

Grafana Loki Helm 차트에서 Pod 시작 시 불필요한 chown 재귀 실행을 방지하기 위해 fsGroupChangePolicy를 OnRootMismatch로 설정하여 Pod 시작 시간을 단축한 최적화를 분석합니다.

#Grafana Loki #Kubernetes #Helm #Performance #Pod Startup

2025년 11월 17일

[vllm] MP Executor로 멀티 노드 분산 추론 지원

MultiprocExecutor를 확장하여 멀티 노드 환경에서의 텐서/파이프라인 병렬 추론을 V1 엔진에서 지원

#vllm #Performance

2025년 11월 16일

[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화

AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.

#Triton #AMD #LLVM #Scheduler #Flash Attention #Performance

2025년 11월 14일

[cpython] CPython의 새로운 Tracing JIT 컴파일러 프론트엔드

trace projection에서 trace recording 모델로 전환하여 pyperformance 1.7% 향상, Richards 100% 가속

#CPython #JIT Compiler #Trace Recording #Performance

2025년 11월 13일

[Ray Core] request ID 생성을 worker로 이동하여 plasma get 성능 회귀 수정

동기 AsyncGet 응답 대기를 제거하여 plasma store get 처리량 2배 복구

#Ray #Plasma Store #C++#Performance

2025년 11월 12일

[vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식

CUDA의 투명 sleep mode를 ROCm/HIP으로 이식하여 AMD GPU에서도 유휴 시 전력 절약 가능

#vllm #Performance

2025년 11월 12일

[vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation

멀티모달 모델의 인코더를 분리하여 Encode, Prefill, Decode를 독립적으로 스케일링하는 disaggregation 아키텍처

#vllm #Performance

2025년 11월 12일

[vllm] ROCm AITER MHA 백엔드 재설계

AMD GPU용 AITER MHA 어텐션 백엔드를 재설계하여 cache 레이아웃 변환과 컨텍스트 병렬 처리를 개선

#vllm #Performance

2025년 11월 4일

[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화

Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임

#Triton #AMD #Scheduling #Performance #FlashAttention

2025년 11월 3일

[vllm] Suffix Decoding - Arctic Inference의 접미사 매칭 기반 Spec Decode

Arctic Inference의 Suffix Decoding을 통합하여 이전 출력의 접미사 패턴을 활용한 speculative decoding

#vllm #Performance

2025년 11월 3일

[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정

buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.

#Triton #AMD #Async #Buffer Operations #Performance

2025년 11월 2일

[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가

Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.

#Ray #Python #Performance #Benchmarking #LLM

2025년 10월 30일

[Grafana Loki] 정규식 필터 평가에서 배치당 한 번만 컴파일하도록 최적화

LogQL 정규식 필터에서 행마다 regex를 컴파일하던 것을 배치당 한 번 컴파일로 변경하여 할당량을 대폭 줄인 분석.

#Grafana Loki #Go #Regex #Performance #Query Engine #Arrow

2025년 10월 30일

[uvloop] Transport.write 즉시 전송으로 레이턴시 감소 및 성능 최적화

쓰기 버퍼가 비어있을 때 데이터를 즉시 전송하여 Transport.write의 레이턴시를 대폭 줄이는 최적화입니다.

#uvloop #Performance #Networking #asyncio #Cython

2025년 10월 30일

[pydantic-ai] smokeshow CI 작업에서 불필요한 uv 캐시 비활성화

smokeshow 배포 단계에서 캐시할 패키지가 없어 uv 캐시를 비활성화하여 CI 효율을 개선

#Python #Pydantic AI #CI/CD #GitHub Actions #Performance

2025년 10월 29일

[pydantic-ai] GitHub Actions uv 캐시에 cache-suffix 도입 — 패키지셋별 격리

서로 다른 패키지 조합의 CI 작업들이 캐시를 공유하여 발생하는 비효율을 cache-suffix로 해결

#Python #Pydantic AI #CI/CD #GitHub Actions #Performance

2025년 10월 29일

[vllm] torch.compile로 Qwen Vision 모델 속도 향상

generic nn.Module에서 supports_torch_compile을 활성화하여 Qwen2.5-VL 등 비전 모델의 torch.compile 호환성 확보

#vllm #Performance

2025년 10월 28일

[pydantic-ai] CI에서 uv cache prune 비활성화 및 HuggingFace 캐시 키 개선

CI에서 uv cache prune을 비활성화하고 HuggingFace 모델 캐시 키를 uv.lock 기반으로 변경

#Python #Pydantic AI #CI/CD #GitHub Actions #Performance

2025년 10월 28일

[Grafana Loki] 쿼리 옵티마이저를 bottom-up에서 top-down 방식으로 리팩터링하여 중복 작업 제거

DAG 노드마다 규칙을 개별 적용하던 bottom-up 옵티마이저를 루트에서 시작하는 top-down 방식으로 전환하여, 중복 규칙 적용과 추론 복잡성을 제거한 분석.

#Grafana Loki #Go #Performance #Query Optimizer #Refactoring

2025년 10월 24일

[Ray RLlib] 모듈별 루프에서 ALL_MODULES 처리량 메트릭을 루프 밖으로 이동하여 바이어스 제거

모듈 배치 루프 내부에서 ALL_MODULES 처리량을 기록하면 타임스탬프가 여러 번 찍혀 처리량이 부풀려지는 문제를 루프 밖에서 합산 기록하도록 수정한 분석.

#Ray #Python #Performance #Metrics #RLlib

2025년 10월 18일

[Loki] 청크 재정렬 시 파이프라인 처리 바이패스로 CPU 최적화

청크 flush 시 불필요한 라벨 파싱과 메타데이터 처리를 건너뛰는 최적화

#Grafana Loki #Chunk Processing #CPU Optimization #Performance

2025년 10월 17일

[Loki] 쿼리 엔진 병렬 푸시다운 최적화 패스 추가

Grafana Loki의 물리 플래너에 parallelPushdown 최적화 규칙을 추가하여, 필터링과 파싱 같은 작업을 Parallelize 노드 내부로 이동시켜 병렬 처리 범위를 확대한 PR을 분석합니다.

#Grafana Loki #Query Engine #Performance #Go #Query Optimization #Parallelism

2025년 10월 17일

[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석

YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.

#YOLO #PyTorch #Optimization #ComputerVision #Performance

2025년 10월 16일

[Loki] 쿼리 엔진에 Parallelize 힌트 노드 추가

물리 실행 계획에 Parallelize 노드를 추가하여 스케줄러의 병렬 작업 분배 기반 마련.

#Grafana Loki #Go #Performance #Query Engine #Parallelism

2025년 10월 16일

[Ray] Data CI 파이프라인 병렬성 확대로 테스트 실행 시간 단축

Ray Data의 CI 파이프라인에서 parallel 테스트의 워커 수를 2에서 8로 늘리고, non-parallel 테스트에도 3-way 병렬성을 추가하여 전체 CI 실행 시간을 단축한 최적화를 분석합니다.

#Ray #CI/CD #Performance #Testing #Parallelism

2025년 10월 14일

[Open WebUI] RecursiveFolder 컴포넌트 지연 로딩으로 페이지 로드 속도 개선

폴더가 열릴 때만 하위 항목을 요청하여 초기 로딩 시 불필요한 API 호출 제거

#Open WebUI #Performance

2025년 10월 9일

[Grafana Loki] GetShards 호출에서 청크 크기 정보를 인덱스에서 직접 가져와 48% 성능 향상

인덱스를 두 번 읽던 GetShards 로직을 한 번의 읽기로 통합하여 응답 시간 48%, 메모리 27% 절감을 달성한 최적화 분석.

#Grafana Loki #Go #Performance #Index Query #TSDB

2025년 10월 9일

[Open WebUI] Knowledge 페이지 로딩 속도 개선: 중복 API 호출 제거

Knowledge 페이지에서 항상 null이 아닌 knowledges 목록을 검증하기 위해 수행하던 불필요한 API 호출을 제거하여 페이지 로딩 속도를 개선한 PR을 분석합니다.

#Open WebUI #Performance #Svelte #Page Loading #API Optimization

2025년 10월 5일

[Open WebUI] 파일 쿼리 시 필요한 컬럼만 조회하여 성능 개선

전체 컬럼 대신 id, meta, created_at, updated_at만 조회하여 파일 메타데이터 쿼리 최적화.

#Open WebUI #Python #Performance #Database #SQLAlchemy

2025년 10월 3일