#Diffusion

13개의 포스트

[논문리뷰] Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding

본 논문은 기존의 엄격한 순차적 Autoregressive (AR) 디코딩 방식이 가진 낮은 추론 병렬성과 자원 활용도 문제를 해결하기 위해 고안되었습니다.

#Review #Language Model #Autoregressive #Diffusion #Self-Speculation #Parallel Decoding #Inference Efficiency #Tri-Mode Decoding

2026년 7월 7일

[sglang] [SGLang] VAE 병렬 디코딩 최적화: CFG 병렬화와의 시너지 분석

SGLang에서 CFG 병렬화 시 VAE 디코딩을 모든 Rank가 참여하도록 개선하여 디코딩 속도를 31% 향상시킨 사례를 분석합니다.

#Diffusion #SGLang #VAE #Parallel Computing #Optimization

2026년 6월 13일

[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성

Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.

#SGLang #Diffusion #FP8 #GEMM #Optimization #CUDA

2026년 6월 11일

[sglang] SGLang의 Spectral Progressive Diffusion 도입: 추론 속도 최대 2.78배 향상

Transformer의 O(n²) 연산 비용을 혁신적으로 줄이는 Spectral Progressive Diffusion 기술 분석

#SGLang #Diffusion #Optimization #Transformer #GPU

2026년 6월 8일

[sglang] SGLang의 Ideogram4 추론 성능 최적화: Denoising 루프 내 오버헤드 제거

Ideogram4 모델의 Denoising 루프에서 반복적으로 수행되던 마스크 메타데이터 생성 및 스케줄 계산을 사전 연산으로 최적화하여 성능을 개선했습니다.

#SGLang #Diffusion #Optimization #Performance #Ideogram4

2026년 6월 7일

[sglang] [SGLang] LingBot 실시간 서빙 최적화: 카메라 컨디셔닝 캐싱과 전송 프로토콜 개선

LingBot의 실시간 지연시간을 10% 이상 단축시킨 카메라 컨디셔닝 캐싱 및 전송 레이어 최적화 기법을 살펴봅니다.

#SGLang #Diffusion #Optimization #Realtime #PyTorch #Performance

2026년 6월 5일

[sglang] [SGLang] Blackwell(B200)에서 Diffusion Attention 성능을 7배 끌어올리는 Triton 커널 최적화 분석

PyTorch SDPA의 마스크 처리 한계를 Triton 커널 퓨전과 Varlen FlashAttention으로 극복하여 B200에서 최대 21%의 성능 향상을 달성했습니다.

#Triton #FlashAttention #Diffusion #CUDA #Performance Optimization #SGLang

2026년 5월 28일

[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상

Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.

#SGLang #Diffusion #Optimization #LLM #Inference

2026년 5월 25일

[논문리뷰] Fast Byte Latent Transformer

본 논문은 byte-level language model이 지닌 고질적인 추론 속도 문제를 해결하는 것을 목적으로 한다. 기존의 바이트 단위 모델은 Subword 모델과 달리 입력 길이가 훨씬 길어지기 때문에, Naive한 자기회귀(Autoregressive) 방식으로는 매우 느린 추론 속도를 보인다는 한계가 있다.

#Review #Byte-level Language Model #BLT #Diffusion #Inference Acceleration #Speculative Decoding #Latent Tokenization

2026년 5월 10일

[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입

Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.

#SGLang #Diffusion #NVFP4 #CUTLASS #Performance

2026년 4월 4일

[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가

SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.

#SGLang #CUDA #Diffusion #RoPE #RMSNorm #Kernel Fusion #GPU Optimization

2026년 3월 27일

[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소

SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.

#SGLang #CUDA #Kernel Optimization #RMSNorm #Diffusion #GPU

2026년 3월 27일

[SGLang] Diffusion Triton Rotary Embedding 다중 헤드 병렬 처리 최적화

Triton rotary embedding 커널을 토큰당 여러 헤드를 동시에 처리하도록 재구성하여 커널 launch 횟수를 줄인다

#SGLang #Triton #Diffusion #Rotary Embedding

2026년 3월 26일