[논문리뷰] LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation본 논문은 긴 비디오 생성 시 발생하는 메모리 병목 현상과 낮은 연산 효율 문제를 해결하기 위해 시스템과 알고리즘이 통합된 인프라 LongLive-2.0을 제안한다.#Review#Long Video Generation#NVFP4#Sequence Parallelism#Autoregressive Diffusion#KV Cache Quantization#Balanced SP2026년 5월 18일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.#SGLang#Diffusion#NVFP4#CUTLASS#Performance2026년 4월 4일댓글 수 로딩 중
[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion ModelsVideo Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.#Review#Video Diffusion Transformers#Mixed-Precision Quantization#Inference Acceleration#Temporal Delta Cache#NVFP4#INT8#Post-Training Quantization#Memory Reduction2026년 3월 25일댓글 수 로딩 중