[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석#AI#LLM#최적화#성능#DeepSeek-V4#sglang#Kernel Fusion2026년 5월 30일댓글 수 로딩 중
[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석#AI#LLM#Optimization#Triton#DeepSeekV4#MoE2026년 5월 18일댓글 수 로딩 중
[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석#sglang#diffusion#torch.compile#optimization#performance#AI2026년 5월 15일댓글 수 로딩 중
[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.#AI#딥러닝#최적화#FP8#GPU2026년 5월 12일댓글 수 로딩 중
[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석#AI#딥러닝#최적화#Triton#HunyuanVideo#VAE2026년 5월 2일댓글 수 로딩 중
[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.#vLLM#AI#딥러닝#최적화#LLM#어텐션#DCP#All-to-All2026년 5월 1일댓글 수 로딩 중
[ACE-Step-1.5] ACE-Step에 파동대역 보정(DCW) 샘플러 훅 추가: SNR-t 편향 개선ACE-Step에 DCW 샘플러 훅을 통합하여 확산 모델의 SNR-t 편향을 개선하고 음질을 향상시킵니다.#AI#음악 생성#확산 모델#최적화#ACE-Step2026년 4월 23일댓글 수 로딩 중
[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.#AI#Machine Learning#LLM#Whisper#Optimization#Performance#Inference2026년 4월 12일댓글 수 로딩 중