#PerformanceOptimization

10개의 포스트

[transformers] Hugging Face Transformers의 Flash Attention 성능 회귀(Regression) 해결

Flash Attention 유틸리티에서 발생한 성능 저하 문제를 .item() 호출을 통해 해결한 사례 분석

#HuggingFace #Transformers #FlashAttention #PerformanceOptimization #PyTorch

2026년 7월 10일

[onnxruntime] ONNX Runtime WebGPU: FlashAttentionDecodeQKV 성능 최적화 분석

WebGPU EP에서 FlashAttentionDecodeQKV의 Workgroup 크기와 타일링 전략을 최적화하여 토큰 생성 속도를 약 10% 향상시킨 사례를 분석합니다.

#ONNXRuntime #WebGPU #FlashAttention #PerformanceOptimization #LLM

2026년 7월 9일

[flashinfer] FlashInfer의 BF16 GEMM 성능 극대화: CUDA Graph와 Cold L2 Cache 도입

FlashInfer의 SM100 타겟 BF16 GEMM 연산에 CUDA Graph와 Cold L2 Cache를 적용하여 오버헤드를 줄이고 성능 안정성을 확보한 사례를 분석합니다.

#FlashInfer #CUDA #GEMM #PerformanceOptimization #GPU

2026년 7월 8일

[ray] Ray RLlib의 비동기 학습 성능 최적화: PULL 기반 EnvRunnerStateServer 도입

RLlib의 비동기 알고리즘(IMPALA, APPO)에서 가중치 동기화 방식을 PUSH에서 PULL 모델로 전환하여 오프폴리시 지연을 20% 개선했습니다.

#Ray #RLlib #ReinforcementLearning #DistributedSystems #PerformanceOptimization

2026년 6월 18일

[axolotl] ScatterMoE LoRA 최적화: Grouped-Gram 및 Sync-free 역전파 구현

대규모 MoE 모델의 LoRA 학습 시 발생하는 병목을 해결하기 위해 Grouped-Gram 커널과 동기화 없는 역전파 경로를 도입하여 성능을 최대 2.2배 개선했습니다.

#PyTorch #Triton #MoE #LoRA #PerformanceOptimization

2026년 6월 7일

[vllm] vLLM의 MoE Permute 최적화: 버퍼 사전 할당을 통한 성능 향상

MoE 연산 시 빈번한 메모리 할당을 제거하여 소규모 배치에서 최대 14%의 성능 향상을 달성한 최적화 기법을 분석합니다.

#vLLM #MoE #CUDA #PerformanceOptimization #DeepLearning

2026년 5월 28일

[onnxruntime] Apple M4 Max를 위한 FlashAttention 최적화: 20배 성능 향상 분석

WebGPU 기반 FlashAttention을 Apple 실리콘 환경에 맞춰 튜닝하여 최대 20배의 성능 향상을 달성한 기술적 접근을 분석합니다.

#ONNXRuntime #WebGPU #FlashAttention #AppleSilicon #PerformanceOptimization

2026년 5월 14일

[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화

PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.

#SGLang #Triton #DeepSeek #MoE #PerformanceOptimization

2026년 5월 9일

[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화

Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.

#vLLM #LLM #DistributedInference #KVCache #PerformanceOptimization

2026년 4월 30일

[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략

GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.

#SGLang #LLM #AMD #ROCm #PerformanceOptimization

2026년 4월 12일