#PyTorch

39개의 포스트

[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결

가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.

#SGLang #PyTorch #CUDA #Optimization #LLM

2026년 4월 25일

[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상

vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.

#vLLM #최적화 #멀티모달 #성능 #Python #PyTorch

2026년 4월 18일

[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성

Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.

#vLLM #Gemma4 #CUDA #Performance-Optimization #PyTorch

2026년 4월 17일

[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교

SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.

#sglang #LoRA Backend #PyTorch #Triton #Chunked

2026년 4월 13일

[llm-compressor] PyTorch Utils: 희소화 통계와 모듈 헬퍼

pytorch/utils와 utils/pytorch 디렉토리의 sparsification_info, module.py 헬퍼가 제공하는 공통 PyTorch 유틸리티 분석

#llm-compressor #PyTorch #Utils

2026년 4월 13일

[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석

vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.

#vLLM #Nemotron Nano VL #Pixel Shuffle #최적화 #성능 개선 #PyTorch

2026년 4월 10일

[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장

SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.

#SGLang #HiCache #Memory Leak #Bug Fix #PyTorch #Tensor

2026년 4월 2일

[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가

GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.

#Axolotl #GRPO #LLM Training #Performance #Flash Attention #PyTorch #Reinforcement Learning

2026년 3월 28일

[Ultralytics] detect/obb Loss 계산의 preprocess를 벡터화하여 학습 속도 향상

배치별 for 루프를 scatter_add 기반 벡터 연산으로 대체하여 detect/obb Loss의 preprocess 단계를 가속합니다.

#Ultralytics #YOLO #PyTorch #Vectorization #Performance

2026년 3월 22일

[Ultralytics] Pose Loss의 keypoint 배치 루프를 벡터 연산으로 최적화

Pose 모델 학습에서 keypoint를 배치별로 정리하는 for 루프를 scatter_add 기반 벡터화로 대체합니다.

#Ultralytics #YOLO #Pose Estimation #Vectorization #PyTorch

2026년 3월 20일

[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화

Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.

#Triton #PyTorch #Optimization #Deep Learning #Performance #GPU

2026년 3월 19일

[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기

nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.

#LLM #vLLM #Inference #Optimization #Python #PyTorch

2026년 3월 18일

[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결

PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.

#PyTorch #Inductor #Precision #bf16 #fp16 #Pattern Matching #Compiler

2026년 3월 11일

[PyTorch] Inductor MPS Metal 셰이더 half-precision 타입 불일치 수정

Metal 셰이더 codegen에서 half 타입의 masked/where 연산 시 타입 불일치를 static_cast로 수정한다

#PyTorch #MPS #Metal #Bug Fix

2026년 3월 11일

[PyTorch] Inductor mixed-order reduction 최적화

mix-order-reduction의 multi-stage를 기본 비활성화하여 shared memory 초과 문제를 방지한다

#PyTorch #Inductor #Triton #Compiler

2026년 3월 9일

[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원

Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.

#Triton #CUDA #PyTorch #Runtime #Independence

2026년 3월 5일

[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환

PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.

#PyTorch #CI #CUDA #GitHub Actions #Inductor #Benchmarks

2026년 2월 27일

[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환

PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.

#PyTorch #vLLM #CI #CUDA #Blackwell #GitHub Actions

2026년 2월 25일

[pytorch] MPS: 2-pass SDPA의 메모리 손상을 float accumulator 강제로 수정

Apple MPS 백엔드의 2-pass Scaled Dot-Product Attention에서 half precision accumulator로 인한 메모리 손상 버그를 float32 강제 전환으로 해결한 사례를 분석합니다.

#PyTorch #MPS #SDPA #Attention #Precision #Apple Silicon #Bug Fix

2026년 2월 24일

[pytorch] Benchmark: Inductor 벤치마크에서 CycleGAN 모델 제거

PyTorch Inductor 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델을 24개 expected accuracy CSV에서 일괄 제거하여 CI 안정성을 개선한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #CycleGAN

2026년 2월 19일

[faster-qwen3-tts] CUDA Graphs 기반 Qwen3-TTS 래퍼를 설치 가능한 Python 패키지로 구조화

Qwen3-TTS CUDA Graphs 최적화 코드를 pip 설치 가능한 Python 패키지로 재구성하고, 스트리밍 생성 API와 벤치마크 스위트를 추가한 사례를 분석합니다.

#Qwen3-TTS #CUDA Graphs #Python Package #TTS #Streaming #PyTorch

2026년 2월 17일

[pytorch] CI: TIMM pretrained 모델 캐싱 기능 Revert

PyTorch CI에서 TIMM pretrained 모델을 공유 HF 캐시에 저장하는 기능을 도입했다가, 문제 발생으로 원복한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #Revert

2026년 2월 16일

[pytorch] Inductor: CycleGAN CPU 벤치마크 expected accuracy 상태 업데이트

PyTorch Inductor의 CPU 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델의 expected 상태를 pass에서 eager_fail_to_run으로 변경한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #Accuracy

2026년 2월 16일

[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상

PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.

#Apple Silicon #MLX #Diffusion Transformer #Performance Optimization #PyTorch

2026년 2월 11일

[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선

PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #GitHub Actions

2026년 2월 9일

[pytorch] PyTorch CUDA 메모리 스냅샷 최적화 — 트레이스 선택적 포함

include_traces 옵션으로 CUDA 메모리 스냅샷의 트레이스 수집을 건너뛰어 성능을 대폭 개선한다

#PyTorch #CUDA Memory #Performance #Memory Profiling

2026년 1월 30일

[pytorch] CI: Inductor 테스트에 IoU 기반 accuracy 체크를 추가하여 segmentation 모델 안정화

PyTorch Inductor 벤치마크에서 segmentation 모델의 boolean mask 출력에 IoU(Intersection over Union) 메트릭을 적용하여, 부동소수점 차이로 인한 false failure를 방지한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #IoU #Segmentation #Accuracy #CI

2026년 1월 12일

[pytorch] CI: fbgemm/torchrec 핀 버전 업데이트 및 빌드 로직 리팩토링

PyTorch CI에서 fbgemm과 torchrec의 핀 버전을 업데이트하고, fbgemm 빌드 로직을 install_fbgemm 함수로 분리하여 CUDA/ROCm 양쪽에서 재사용 가능하게 리팩토링한 사례를 분석합니다.

#PyTorch #CI #fbgemm #torchrec #ROCm #Build System #Refactoring

2026년 1월 11일

[pytorch] Benchmark: Inductor 벤치마크에서 modded_nanogpt 모델 Skip 처리

TorchInductor 벤치마크에서 정상 동작하지 않는 modded_nanogpt 모델을 skip 리스트에 추가하여 CI 안정성을 개선한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #NanoGPT

2026년 1월 9일

[pytorch] Build: vendored_templates 디렉토리에 init.py 자동 생성으로 패키지 인식 문제 해결

PyTorch setup.py에서 CuTeDSL Grouped MM 템플릿의 vendored_templates 디렉토리에 __init__.py를 자동 생성하여 find_packages가 서브모듈로 인식하도록 수정한 사례를 분석합니다.

#PyTorch #Build System #CUTLASS #Inductor #Python Packaging

2026년 1월 9일

[PyTorch] MPS mul 성능 회귀 수정

Apple MPS 백엔드의 broadcast/scalar 연산에 전용 Metal 커널을 추가하여 성능 회귀를 수정한다

#PyTorch #MPS #Metal #Performance

2026년 1월 9일

[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가

FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다

#PyTorch #FlexAttention #FP8 #Quantization

2026년 1월 5일

[GPT-SoVITS] batch_size 변수의 부동소수점 타입 오류 수정

GPU 메모리 기반 자동 배치 크기 계산에서 정수 나눗셈 결과가 float로 반환되어 PyTorch DataLoader가 실패하던 버그 수정 분석.

#GPT-SoVITS #Python #Bug Fix #PyTorch #Training

2025년 11월 28일

[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속

ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화

#Ray #PyTorch #Apache Arrow #Performance

2025년 11월 22일

[ultralytics] Ultralytics 8.3.229: COCO Segmentation 평가 300% 가속화 분석

외부 라이브러리 의존성을 제거하고 PyTorch 기반의 최적화된 RLE 인코딩 및 마스크 스케일링을 도입하여 성능을 3배 향상시킨 사례를 분석합니다.

#Ultralytics #YOLO #Optimization #PyTorch #ComputerVision

2025년 11월 18일

[ultralytics] COCO Segmentation 검증 300% 속도 향상 — RLE 인코딩 벡터화

ThreadPool + faster_coco_eval 의존성을 PyTorch 벡터화 RLE로 교체하여 검증 속도 3배 향상

#Python #PyTorch #YOLO #Performance #Segmentation

2025년 11월 18일

[Ultralytics] 학습 중 Multi-GPU 검증 지원

Multi-GPU 학습 시 검증도 모든 GPU에서 병렬 수행하도록 개선한 PR 분석

#Ultralytics #YOLO #Multi-GPU #Distributed Training #PyTorch

2025년 10월 20일

[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석

YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.

#YOLO #PyTorch #Optimization #ComputerVision #Performance

2025년 10월 16일

[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation

arXiv에 게시된 'TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation' 논문에 대한 자세한 리뷰입니다.

#Review #BLEU Score #GPU Acceleration #PyTorch #Natural Language Processing #Reinforcement Learning #Vectorization #In-Training Evaluation #N-gram Counting

2025년 10월 8일