#성능 최적화

32개의 포스트

[loki] Grafana Loki LogQL 최적화: `max_query_series` 한도 내에서 효율적인 시리즈 누적

Loki LogQL 쿼리 엔진에서 `max_query_series` 한도를 효율적으로 적용하여 메모리 사용량을 최적화하는 방법.

#Grafana Loki #LogQL #성능 최적화 #Go #메모리 관리 #Software Engineering

2026년 7월 9일

[sglang] SGLang, 대규모 언어 모델 디버깅 속도 향상을 위한 스마트한 텐서 비교 최적화

SGLang의 새로운 PR은 대규모 언어 모델 디버깅 시 발생하는 텐서 비교 비용을 획기적으로 줄여줍니다.

#SGLang #성능 최적화 #LLM 디버깅 #텐서 비교 #코드 분석

2026년 7월 9일

[vllm] [vLLM 성능 최적화] Kimi-K2.5/K2.6 이미지 전처리 10배 가속화: Numba와 퓨전 기법 활용

vLLM에서 Kimi-K2.5/K2.6 모델의 이미지 전처리를 Numba와 룩업 테이블로 최대 10배 최적화한 사례를 분석합니다.

#vLLM #성능 최적화 #Numba #이미지 전처리 #Kimi-K2.5 #Python #Deep Learning

2026년 7월 6일

[sglang] SGLang: performance_mode=speed에서 torch.compile 기본 활성화로 성능 최적화

SGLang의 'speed' 모드에서 torch.compile을 기본 활성화하여 성능을 극대화하는 PR 분석.

#SGLang #PyTorch #torch.compile #성능 최적화 #GPU #JIT 컴파일

2026년 7월 3일

[faster-qwen3-tts] Qwen3-TTS, GGML 백엔드 통합으로 속도 혁신: C++ 네이티브 백엔드의 놀라운 성능 향상

Qwen3-TTS에 GGML 백엔드를 통합하여 C++ 네이티브 구현을 통해 획기적인 성능 개선을 달성했습니다.

#Qwen3-TTS #GGML #성능 최적화 #C++#TTS

2026년 6월 29일

[sglang] LTX-2 모델 성능 최적화: NPU 및 GPU에서의 지연 시간 단축 분석

LTX-2 모델의 E2E 지연 시간을 NPU에서 27%, GPU에서 3% 단축한 코드 변경 분석.

#sglang #LTX-2 #성능 최적화 #NPU #GPU #RMSNorm #FlashAttention

2026년 6월 19일

[sglang] [성능 최적화] SGLang `prepare_for_decode`에서 `latest_output_ids` H2D 복사 비동기화로 디코딩 처리량 30% 향상

SGLang 디코딩 과정에서 `latest_output_ids`의 H2D 복사를 비동기화하여 성능을 크게 개선한 사례 분석.

#SGLang #PyTorch #CUDA #성능 최적화 #GPU #LLM #H2D #비동기 프로그래밍

2026년 6월 17일

[loki] Grafana Loki의 Shuffle Sharding 알고리즘 최적화: 성능 향상의 비결

Grafana Loki의 Shuffle Sharding 알고리즘이 어떻게 최적화되어 성능을 크게 향상시켰는지 분석합니다.

#Grafana Loki #Shuffle Sharding #성능 최적화 #Go #알고리즘

2026년 6월 9일

[sglang] AMD MI300에서의 GPT-OSS 120B 추론 성능 최적화: 새로운 KV 캐시 레이아웃과 커널 통합

AMD GPU에서 GPT-OSS 120B 모델의 추론 속도를 15% 이상 향상시키는 최적화 방안을 분석합니다.

#AMD #ROCm #SGLang #GPT-OSS #성능 최적화 #KV Cache #Attention Kernel

2026년 6월 8일

[uv] uv, 대규모 워크스페이스 탐색 속도 1.8배 향상: 중복 파일 읽기 제거

uv가 대규모 워크스페이스 탐색 시 pyproject.toml 파일을 중복으로 읽는 문제를 해결하여 성능을 크게 개선했습니다.

#uv #성능 최적화 #Rust #Python #빌드 도구

2026년 6월 5일

[feast] Feast 온라인 서빙 성능 튜닝: Sub-2ms 달성을 위한 여정

Feast 온라인 피처 서버의 p99 지연 시간을 sub-2ms로 단축하기 위한 성능 튜닝 과정을 상세히 분석합니다.

#Feast #성능 최적화 #Kubernetes #Redis #Python

2026년 6월 3일

[sglang] SGLang NIXL HiCache 리팩토링 및 O_DIRECT 지원 추가: 성능 향상과 안정성 강화

SGLang의 NIXL HiCache 커넥터 리팩토링 및 O_DIRECT 지원 추가로 I/O 성능 향상 및 안정성 개선.

#SGLang #NIXL #HiCache #O_DIRECT #성능 최적화 #KV Cache

2026년 6월 1일

[vllm] vLLM, DeepSeek-V3.2 모델의 ROCm 성능 최적화: CPU 측 마이크로 최적화 3가지 분석

vLLM의 DeepSeek-V3.2 모델에서 ROCm 환경의 CPU 측 코드 최적화를 통해 성능을 개선한 PR을 분석합니다.

#vLLM #ROCm #DeepSeek-V3.2 #성능 최적화 #기술 블로그

2026년 5월 29일

[openclaw] Node.js 오디오 코덱 성능 최적화: TypedArray를 활용한 효율적인 PCM 처리

Node.js 오디오 코덱의 핵심 경로에서 TypedArray를 사용하여 PCM 데이터 처리를 최적화한 PR 분석

#Node.js #성능 최적화 #오디오 코덱 #TypedArray #Buffer

2026년 5월 26일

[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화

SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.

#SGLang #성능 최적화 #딥러닝 #컴퓨터 비전 #LLM

2026년 5월 17일

[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화

vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.

#vLLM #DeepSeek V4 #성능 최적화 #CUDA 커널 #LLM 추론

2026년 5월 14일

[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입

NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.

#NPU #성능 최적화 #딥러닝 #LLM #SGLang

2026년 5월 12일

[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상

vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석

#vLLM #DeepSeek-V4 #성능 최적화 #GPU 커널 #CuteDSL #Triton

2026년 5월 11일

[openclaw] Telegram 메시지 캐시 최적화: 전체 파일 재작성 대신 변경분만 기록하기

Telegram 메시지 캐시 저장 방식을 개선하여 성능을 크게 향상시키고 디스크 I/O를 줄였습니다.

#Telegram #캐싱 #성능 최적화 #Node.js #디스크 I/O

2026년 5월 9일

[sglang] SGLang: ROCm 환경에서 RMSNorm 최적화 - Triton에서 aiter 커널로 전환

SGLang에서 ROCm 환경의 RMSNorm 성능을 aiter 커널로 교체하여 30% 이상 개선했습니다.

#SGLang #ROCm #RMSNorm #aiter #성능 최적화 #HIP #GPU 프로그래밍

2026년 5월 8일

[sglang] NixlKVManager 성능 향상: 비동기 및 멀티스레드 KV 전송 도입

NixlKVManager의 KV 전송 병목 현상을 비동기 및 멀티스레드 방식으로 해결하여 성능을 4배 향상시켰습니다.

#sglang #Nixl #성능 최적화 #비동기 처리 #멀티스레딩 #분산 추론

2026년 5월 7일

[openclaw] OpenClaw: 런타임 플러그인 레지스트리 재사용을 통한 성능 최적화

OpenClaw의 `resolvePreparedExtraParams` 함수 최적화를 통해 임베디드 턴당 1.9초의 동기 비용을 절감했습니다.

#OpenClaw #성능 최적화 #캐싱 #WeakMap #플러그인 #JavaScript

2026년 5월 2일

[onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상

ONNX Runtime 스레드 풀의 스핀 루프에 Exponential Backoff를 도입하여 성능과 전력 효율성을 개선하는 방법을 분석합니다.

#ONNX Runtime #성능 최적화 #스레드 풀 #Exponential Backoff #병렬 처리

2026년 4월 24일

[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석

SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.

#SGLang #성능 최적화 #비동기 프로그래밍 #SSE #Python #메시지큐 #Pydantic #msgspec

2026년 4월 22일

[abtop] Linux 성능 최적화: lsof 대신 /proc/net/tcp 파싱으로 포트 탐색 개선

abtop의 Linux 포트 탐색 로직을 lsof 대신 /proc/net/tcp 파싱으로 변경하여 성능을 획기적으로 개선한 PR 분석

#Linux #성능 최적화 #시스템 프로그래밍 #abtop #procfs

2026년 4월 21일

[ollama] Ollama MLX Gemma4 성능 최적화: Fused Operations를 통한 효율성 증대

Ollama의 MLX 백엔드에서 Gemma4 모델의 성능을 fused operations로 최적화한 PR 분석.

#Ollama #MLX #Gemma4 #성능 최적화 #Fused Operations #Deep Learning #Go #Machine Learning

2026년 4월 15일

[sglang] sglang, AMD MI35x 환경에서 GLM-5-MXFP4 모델의 성능 및 정확도 테스트 추가

sglang 레포지토리에서 AMD MI35x GPU 환경에 GLM-5-MXFP4 모델의 정확도 및 성능 테스트를 추가하고 기존 테스트를 정리하는 PR을 분석합니다.

#sglang #AMD #MI35x #GLM-5-MXFP4 #CI #테스트 자동화 #성능 최적화

2026년 4월 15일

[sglang] SGLang 토크나이저 매니저: O(n²) 복사 비용 제거를 통한 스트리밍 성능 최적화

SGLang의 토크나이저 매니저에서 O(n²) 복사 비용을 제거하여 스트리밍 성능을 획기적으로 개선했습니다.

#SGLang #성능 최적화 #토크나이저 #스트리밍 #Python #O(n^2)

2026년 4월 12일

[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화

SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.

#SGLang #Ngram #Speculative Decoding #Suffix Automaton #성능 최적화 #LLM #Python #C++

2026년 4월 6일

[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존

SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.

#SGLang #CUDA Graph #Sliding Window Attention #성능 최적화 #LLM 추론

2026년 3월 31일

[feast] Feast 성능 최적화: Timestamp 변환 비용 절감으로 온라인 피처 서빙 가속화

Feast의 _convert_rows_to_protobuf 함수에서 Timestamp 변환을 최적화하여 성능을 크게 개선했습니다.

#Feast #Python #성능 최적화 #Protobuf #Timestamp #Feature Store

2026년 3월 5일

[triton] Triton JIT 컴파일러 최적화: `inspect.getclosurevars` 제거를 통한 10,000배 성능 향상

Triton JIT 컴파일러에서 `inspect.getclosurevars`를 제거하여 캡처 스코프 조회 속도를 10,000배 향상시켰습니다.

#Triton #JIT #성능 최적화 #Python #컴파일러 #inspect

2025년 11월 25일