#AI

11개의 포스트

[sglang] SGLang, GPU 간 VAE 디코딩 최적화를 통한 이미지 생성 속도 향상

SGLang의 최신 PR은 VAE 디코딩 과정을 최적화하여 이미지 생성 속도를 크게 향상시킵니다.

#SGLang #AI #이미지 생성 #최적화 #VAE #병렬 처리 #GPU

2026년 6월 14일

[triton] Triton에서 i8 행렬 곱셈 최적화: 레지스터 압력 감소 및 성능 향상

Triton의 i8 행렬 곱셈에서 레지스터 압력을 줄이고 성능을 향상시키는 최적화 기법을 분석합니다.

#Triton #AI #최적화 #행렬 곱셈 #GPU

2026년 6월 12일

[sglang] DeepSeek V4의 Prefill 성능을 1.35배 향상시킨 FlashAttention 최적화

DeepSeek V4 모델의 Prefill 단계 성능을 획기적으로 개선한 FlashAttention 최적화 분석

#AI #LLM #Performance Optimization #FlashAttention #DeepSeek V4 #SGLang

2026년 6월 3일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석

DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석

#AI #LLM #Optimization #Triton #DeepSeekV4 #MoE

2026년 5월 18일

[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서

sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석

#sglang #diffusion #torch.compile #optimization #performance #AI

2026년 5월 15일

[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화

DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.

#AI #딥러닝 #최적화 #FP8 #GPU

2026년 5월 12일

[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화

HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석

#AI #딥러닝 #최적화 #Triton #HunyuanVideo #VAE

2026년 5월 2일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[ACE-Step-1.5] ACE-Step에 파동대역 보정(DCW) 샘플러 훅 추가: SNR-t 편향 개선

ACE-Step에 DCW 샘플러 훅을 통합하여 확산 모델의 SNR-t 편향을 개선하고 음질을 향상시킵니다.

#AI #음악 생성 #확산 모델 #최적화 #ACE-Step

2026년 4월 23일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일