[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.#vLLM#CPU#Optimization#NEON#Performance2026년 4월 23일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.#SGLang#성능 최적화#비동기 프로그래밍#SSE#Python#메시지큐#Pydantic#msgspec2026년 4월 22일댓글 수 로딩 중
[abtop] Codex 세션 파일 검색 성능 개선: lsof 대신 /proc/pid/fd 활용Codex 세션에서 열린 JSONL 파일을 찾는 방식을 lsof에서 /proc/pid/fd로 변경하여 Linux 환경에서 성능을 크게 향상시켰습니다.#Rust#Performance#Linux#Optimization#System Programming2026년 4월 21일댓글 수 로딩 중
[abtop] Linux 성능 최적화: lsof 대신 /proc/net/tcp 파싱으로 포트 탐색 개선abtop의 Linux 포트 탐색 로직을 lsof 대신 /proc/net/tcp 파싱으로 변경하여 성능을 획기적으로 개선한 PR 분석#Linux#성능 최적화#시스템 프로그래밍#abtop#procfs2026년 4월 21일댓글 수 로딩 중
[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.#vLLM#Performance#Optimization#Python#Multiprocessing2026년 4월 21일댓글 수 로딩 중
[ollama] Ollama MLX Sampler 최적화: 성능 향상과 Logprobs 지원Ollama의 MLX 러너에서 샘플링 로직을 개선하여 성능을 약 1.5% 향상하고 Logprobs 기능을 통합했습니다.#Ollama#MLX#LLM#Performance#Golang2026년 4월 21일댓글 수 로딩 중
[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.#vLLM#Gemma4#Triton#최적화#성능 향상#AI 모델 서빙2026년 4월 19일댓글 수 로딩 중
[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.#vLLM#MXFP4#MoE#Quantization#CUTLASS#Performance Optimization#SM1002026년 4월 18일댓글 수 로딩 중
[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.#vLLM#최적화#멀티모달#성능#Python#PyTorch2026년 4월 18일댓글 수 로딩 중
[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.#vLLM#CI/CD#Optimization#MoE#Python2026년 4월 18일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.#Triton#AMD#GPU#Optimization#GEMM#HPC2026년 4월 18일댓글 수 로딩 중
[open-webui] Open WebUI 성능 최적화: 불필요한 DB 중복 조회 제거하기인증 과정에서 이미 로드된 사용자 정보를 재조회하던 비효율적인 DB 호출을 제거하여 API 응답 속도를 개선했습니다.#Python#FastAPI#Performance#Optimization#OpenWebUI2026년 4월 17일댓글 수 로딩 중
[open-webui] Open WebUI 채팅 파일 중복 제거 로직 최적화: O(n*m)에서 O(n+m)으로Open WebUI의 채팅 파일 중복 제거 로직을 리스트에서 세트로 변경하여 성능을 크게 개선했습니다.#Python#Optimization#Performance#Backend#Open WebUI2026년 4월 17일댓글 수 로딩 중
[open-webui] Open WebUI 성능 개선: DB 세션 재사용으로 프로필 이미지 로딩 최적화Open WebUI에서 프로필 이미지 로딩 시 DB 세션 중복 생성을 방지하여 성능을 개선했습니다.#Python#FastAPI#SQLAlchemy#Performance Optimization#Database2026년 4월 17일댓글 수 로딩 중
[cpython] CPython JIT 구현을 위한 내부 API 익스포트: PEP 523 활용CPython의 내부 함수들을 JIT 컴파일러가 사용할 수 있도록 PyAPI_FUNC로 노출하여 성능 최적화 기반을 마련한 변경사항 분석.#CPython#JIT#PEP-523#Internal API#Performance2026년 4월 17일댓글 수 로딩 중
[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.#vLLM#Gemma4#CUDA#Performance-Optimization#PyTorch2026년 4월 17일댓글 수 로딩 중
[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.#vLLM#Arm CPU#BF16#GELU#최적화#성능 개선#LUT2026년 4월 16일댓글 수 로딩 중
[cpython] CPython의 BINARY_OP_EXTEND 최적화: 타입 정보 전파를 통한 성능 개선BINARY_OP_EXTEND에 리스트와 튜플 연산을 추가하고, 타입 정보를 JIT에 전달하여 가드(guard)를 제거함으로써 성능을 최적화했습니다.#CPython#Python Internals#Performance#JIT#Optimization2026년 4월 16일댓글 수 로딩 중
[ollama] Ollama MLX Gemma4 성능 최적화: Fused Operations를 통한 효율성 증대Ollama의 MLX 백엔드에서 Gemma4 모델의 성능을 fused operations로 최적화한 PR 분석.#Ollama#MLX#Gemma4#성능 최적화#Fused Operations#Deep Learning#Go#Machine Learning2026년 4월 15일댓글 수 로딩 중