[triton] Triton의 Ragged Matmul 메타데이터 계산 최적화: CPU 동기화 없는 효율적인 프로파일링Ragged matmul의 메타데이터 계산을 다수의 Torch 커널에서 단일 Triton 커널로 통합하여 오버헤드를 획기적으로 줄였습니다.#Triton#GPU#Performance#Profiling#Matmul2026년 4월 29일댓글 수 로딩 중
[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.#FlashInfer#TRTLLM#MoE#NemotronH#FP4#FP8#Kernel Optimization#Deep Learning#Performance2026년 4월 29일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[cpython] Python subprocess.communicate() 타임아웃 성능 개선: 느린 자식 프로세스 응답 방식 변경subprocess.communicate()의 타임아웃 테스트에서 발생하는 긴 지연 시간을 해결하여 테스트 속도를 크게 향상시킵니다.#python#subprocess#performance#testing#optimization2026년 4월 26일댓글 수 로딩 중
[cpython] Python dataclasses 모듈의 성능 최적화: inspect 모듈의 Lazy Import 도입dataclasses 모듈의 무거운 inspect 의존성을 Lazy Import로 전환하여 모듈 로드 시간을 약 20-30% 개선했습니다.#Python#CPython#Performance#Optimization#dataclasses2026년 4월 26일댓글 수 로딩 중
[cpython] Python `subprocess` 테스트 최적화: `communicate()` 타임아웃 테스트 속도 향상`subprocess.communicate()` 타임아웃 테스트의 런타임을 30초에서 1초 미만으로 단축하는 최적화 분석.#Python#subprocess#testing#optimization#performance#socket2026년 4월 26일댓글 수 로딩 중
[cpython] CPython 테스트 최적화: 30초의 대기를 1초 미만으로 단축하는 소켓 핸드셰이크 기법subprocess 테스트의 불필요한 sleep을 제거하고 루프백 소켓 기반의 동기화 메커니즘을 도입하여 테스트 실행 시간을 획기적으로 단축한 사례를 분석합니다.#Python#CPython#Subprocess#Testing#Optimization#Socket2026년 4월 26일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.#SGLang#Triton#ROCm#Performance Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.#SGLang#MoE#AMD GPU#최적화#성능#AIter#GPU Kernel2026년 4월 25일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.#AMD GPU#FP8#Triton Kernel#KV Cache#Optimization#SGLang2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.#FlashInfer#LLM#Autotuning#Optimization#MoE2026년 4월 24일댓글 수 로딩 중
[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.#FlashInfer#CuTe DSL#FMHA#Prefill#최적화#성능 개선#딥러닝#LLM2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.#vLLM#Quantization#Humming#LLM#Inference#Optimization2026년 4월 24일댓글 수 로딩 중
[onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상ONNX Runtime 스레드 풀의 스핀 루프에 Exponential Backoff를 도입하여 성능과 전력 효율성을 개선하는 방법을 분석합니다.#ONNX Runtime#성능 최적화#스레드 풀#Exponential Backoff#병렬 처리2026년 4월 24일댓글 수 로딩 중
[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.#FlashInfer#Distributed Computing#CUDA#GEMM#Performance Optimization2026년 4월 24일댓글 수 로딩 중
[ACE-Step-1.5] ACE-Step에 파동대역 보정(DCW) 샘플러 훅 추가: SNR-t 편향 개선ACE-Step에 DCW 샘플러 훅을 통합하여 확산 모델의 SNR-t 편향을 개선하고 음질을 향상시킵니다.#AI#음악 생성#확산 모델#최적화#ACE-Step2026년 4월 23일댓글 수 로딩 중
[cpython] Python statistics.fmean() 성능 최적화: itertools.compress를 활용한 오버헤드 제거itertools.compress를 활용하여 튜플 생성 오버헤드를 제거하고 fmean의 성능을 약 39% 향상시킨 사례를 분석합니다.#Python#Performance#Optimization#CPython#itertools2026년 4월 23일댓글 수 로딩 중
[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.#Triton#GPU#Optimization#Attention#DeepLearning2026년 4월 23일댓글 수 로딩 중
[cpython] Python JIT Shim 빌드 프로세스 개선: 런타임 컴파일에서 빌드 타임 링크로Python JIT shim을 런타임 컴파일에서 빌드 타임 링크로 전환하여 성능과 디버깅 편의성을 개선합니다.#Python#JIT#Performance Optimization#Build System#CPython#Compiler2026년 4월 23일댓글 수 로딩 중