[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.#vLLM#최적화#멀티모달#성능#Python#PyTorch2026년 4월 18일댓글 수 로딩 중
[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.#vLLM#Gemma4#CUDA#Performance-Optimization#PyTorch2026년 4월 17일댓글 수 로딩 중
[SGLang] LoRA 백엔드: PyTorch, Triton, Chunked 구현 비교SGLang의 LoRA 백엔드를 분석한다. PyTorch 기본 구현, Triton 최적화, Chunked 배치 처리 등 3종 백엔드의 구현과 성능 차이를 코드와 함께 비교한다.#sglang#LoRA Backend#PyTorch#Triton#Chunked2026년 4월 13일댓글 수 로딩 중
[llm-compressor] PyTorch Utils: 희소화 통계와 모듈 헬퍼pytorch/utils와 utils/pytorch 디렉토리의 sparsification_info, module.py 헬퍼가 제공하는 공통 PyTorch 유틸리티 분석#llm-compressor#PyTorch#Utils2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.#vLLM#Nemotron Nano VL#Pixel Shuffle#최적화#성능 개선#PyTorch2026년 4월 10일댓글 수 로딩 중
[sglang] HiCache 메모리 누수 수정: host indices clone으로 참조 해제 보장SGLang HiCache에서 host_indices를 clone하지 않아 발생하는 메모리 누수 버그를 수정한 코드 분석. 텐서 참조 공유의 위험성을 살펴봅니다.#SGLang#HiCache#Memory Leak#Bug Fix#PyTorch#Tensor2026년 4월 2일댓글 수 로딩 중
[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[Ultralytics] detect/obb Loss 계산의 preprocess를 벡터화하여 학습 속도 향상배치별 for 루프를 scatter_add 기반 벡터 연산으로 대체하여 detect/obb Loss의 preprocess 단계를 가속합니다.#Ultralytics#YOLO#PyTorch#Vectorization#Performance2026년 3월 22일댓글 수 로딩 중
[Ultralytics] Pose Loss의 keypoint 배치 루프를 벡터 연산으로 최적화Pose 모델 학습에서 keypoint를 배치별로 정리하는 for 루프를 scatter_add 기반 벡터화로 대체합니다.#Ultralytics#YOLO#Pose Estimation#Vectorization#PyTorch2026년 3월 20일댓글 수 로딩 중
[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.#Triton#PyTorch#Optimization#Deep Learning#Performance#GPU2026년 3월 19일댓글 수 로딩 중
[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.#LLM#vLLM#Inference#Optimization#Python#PyTorch2026년 3월 18일댓글 수 로딩 중
[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.#PyTorch#Inductor#Precision#bf16#fp16#Pattern Matching#Compiler2026년 3월 11일댓글 수 로딩 중
[PyTorch] Inductor MPS Metal 셰이더 half-precision 타입 불일치 수정Metal 셰이더 codegen에서 half 타입의 masked/where 연산 시 타입 불일치를 static_cast로 수정한다#PyTorch#MPS#Metal#Bug Fix2026년 3월 11일댓글 수 로딩 중
[PyTorch] Inductor mixed-order reduction 최적화mix-order-reduction의 multi-stage를 기본 비활성화하여 shared memory 초과 문제를 방지한다#PyTorch#Inductor#Triton#Compiler2026년 3월 9일댓글 수 로딩 중
[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.#Triton#CUDA#PyTorch#Runtime#Independence2026년 3월 5일댓글 수 로딩 중
[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.#PyTorch#CI#CUDA#GitHub Actions#Inductor#Benchmarks2026년 2월 27일댓글 수 로딩 중
[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.#PyTorch#vLLM#CI#CUDA#Blackwell#GitHub Actions2026년 2월 25일댓글 수 로딩 중
[pytorch] MPS: 2-pass SDPA의 메모리 손상을 float accumulator 강제로 수정Apple MPS 백엔드의 2-pass Scaled Dot-Product Attention에서 half precision accumulator로 인한 메모리 손상 버그를 float32 강제 전환으로 해결한 사례를 분석합니다.#PyTorch#MPS#SDPA#Attention#Precision#Apple Silicon#Bug Fix2026년 2월 24일댓글 수 로딩 중
[pytorch] Benchmark: Inductor 벤치마크에서 CycleGAN 모델 제거PyTorch Inductor 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델을 24개 expected accuracy CSV에서 일괄 제거하여 CI 안정성을 개선한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#CycleGAN2026년 2월 19일댓글 수 로딩 중
[faster-qwen3-tts] CUDA Graphs 기반 Qwen3-TTS 래퍼를 설치 가능한 Python 패키지로 구조화Qwen3-TTS CUDA Graphs 최적화 코드를 pip 설치 가능한 Python 패키지로 재구성하고, 스트리밍 생성 API와 벤치마크 스위트를 추가한 사례를 분석합니다.#Qwen3-TTS#CUDA Graphs#Python Package#TTS#Streaming#PyTorch2026년 2월 17일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델 캐싱 기능 RevertPyTorch CI에서 TIMM pretrained 모델을 공유 HF 캐시에 저장하는 기능을 도입했다가, 문제 발생으로 원복한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#Revert2026년 2월 16일댓글 수 로딩 중
[pytorch] Inductor: CycleGAN CPU 벤치마크 expected accuracy 상태 업데이트PyTorch Inductor의 CPU 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델의 expected 상태를 pass에서 eager_fail_to_run으로 변경한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#Accuracy2026년 2월 16일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon을 위한 네이티브 MLX DiT 백엔드 도입: 2-3배 성능 향상PyTorch MPS의 오버헤드를 제거하고 Apple Silicon에서 DiT 추론 속도를 2-3배 가속화하는 네이티브 MLX 백엔드 구현.#Apple Silicon#MLX#Diffusion Transformer#Performance Optimization#PyTorch2026년 2월 11일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#GitHub Actions2026년 2월 9일댓글 수 로딩 중
[pytorch] PyTorch CUDA 메모리 스냅샷 최적화 — 트레이스 선택적 포함include_traces 옵션으로 CUDA 메모리 스냅샷의 트레이스 수집을 건너뛰어 성능을 대폭 개선한다#PyTorch#CUDA Memory#Performance#Memory Profiling2026년 1월 30일댓글 수 로딩 중
[pytorch] CI: Inductor 테스트에 IoU 기반 accuracy 체크를 추가하여 segmentation 모델 안정화PyTorch Inductor 벤치마크에서 segmentation 모델의 boolean mask 출력에 IoU(Intersection over Union) 메트릭을 적용하여, 부동소수점 차이로 인한 false failure를 방지한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#IoU#Segmentation#Accuracy#CI2026년 1월 12일댓글 수 로딩 중
[pytorch] CI: fbgemm/torchrec 핀 버전 업데이트 및 빌드 로직 리팩토링PyTorch CI에서 fbgemm과 torchrec의 핀 버전을 업데이트하고, fbgemm 빌드 로직을 install_fbgemm 함수로 분리하여 CUDA/ROCm 양쪽에서 재사용 가능하게 리팩토링한 사례를 분석합니다.#PyTorch#CI#fbgemm#torchrec#ROCm#Build System#Refactoring2026년 1월 11일댓글 수 로딩 중
[pytorch] Benchmark: Inductor 벤치마크에서 modded_nanogpt 모델 Skip 처리TorchInductor 벤치마크에서 정상 동작하지 않는 modded_nanogpt 모델을 skip 리스트에 추가하여 CI 안정성을 개선한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#NanoGPT2026년 1월 9일댓글 수 로딩 중
[pytorch] Build: vendored_templates 디렉토리에 __init__.py 자동 생성으로 패키지 인식 문제 해결PyTorch setup.py에서 CuTeDSL Grouped MM 템플릿의 vendored_templates 디렉토리에 __init__.py를 자동 생성하여 find_packages가 서브모듈로 인식하도록 수정한 사례를 분석합니다.#PyTorch#Build System#CUTLASS#Inductor#Python Packaging2026년 1월 9일댓글 수 로딩 중
[PyTorch] MPS mul 성능 회귀 수정Apple MPS 백엔드의 broadcast/scalar 연산에 전용 Metal 커널을 추가하여 성능 회귀를 수정한다#PyTorch#MPS#Metal#Performance2026년 1월 9일댓글 수 로딩 중
[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다#PyTorch#FlexAttention#FP8#Quantization2026년 1월 5일댓글 수 로딩 중
[GPT-SoVITS] batch_size 변수의 부동소수점 타입 오류 수정GPU 메모리 기반 자동 배치 크기 계산에서 정수 나눗셈 결과가 float로 반환되어 PyTorch DataLoader가 실패하던 버그 수정 분석.#GPT-SoVITS#Python#Bug Fix#PyTorch#Training2025년 11월 28일댓글 수 로딩 중
[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화#Ray#PyTorch#Apache Arrow#Performance2025년 11월 22일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.229: COCO Segmentation 평가 300% 가속화 분석외부 라이브러리 의존성을 제거하고 PyTorch 기반의 최적화된 RLE 인코딩 및 마스크 스케일링을 도입하여 성능을 3배 향상시킨 사례를 분석합니다.#Ultralytics#YOLO#Optimization#PyTorch#ComputerVision2025년 11월 18일댓글 수 로딩 중
[ultralytics] COCO Segmentation 검증 300% 속도 향상 — RLE 인코딩 벡터화ThreadPool + faster_coco_eval 의존성을 PyTorch 벡터화 RLE로 교체하여 검증 속도 3배 향상#Python#PyTorch#YOLO#Performance#Segmentation2025년 11월 18일댓글 수 로딩 중
[Ultralytics] 학습 중 Multi-GPU 검증 지원Multi-GPU 학습 시 검증도 모든 GPU에서 병렬 수행하도록 개선한 PR 분석#Ultralytics#YOLO#Multi-GPU#Distributed Training#PyTorch2025년 10월 20일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.#YOLO#PyTorch#Optimization#ComputerVision#Performance2025년 10월 16일댓글 수 로딩 중
[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training EvaluationarXiv에 게시된 'TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#BLEU Score#GPU Acceleration#PyTorch#Natural Language Processing#Reinforcement Learning#Vectorization#In-Training Evaluation#N-gram Counting2025년 10월 8일댓글 수 로딩 중