#NVFP4

8개의 포스트

[axolotl] Axolotl, NVFP4 LoRA 지원으로 MoE 모델 훈련 최적화

Axolotl이 NVFP4 MoE LoRA 지원을 추가하여 MoE 모델 훈련 효율성을 높였습니다.

#Axolotl #MoE #LoRA #NVFP4 #최적화 #딥러닝

2026년 7월 9일

[flashinfer] FlashInfer Unified MoE API: NVFP4 백엔드 통합 및 자동 튜닝 최적화

CuteDSL과 TRTLLM FP4 백엔드를 통합하고, 런타임 자동 튜닝을 통해 최적의 성능을 선택하는 Unified MoE API 설계 및 구현.

#FlashInfer #MoE #NVFP4 #Autotuning #LLM

2026년 6월 10일

[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화

vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.

#vLLM #CUTLASS #NVFP4 #CUDA #Optimization #Blackwell

2026년 5월 23일

[논문리뷰] Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

본 논문은 Agentic LLM의 추론 과정에서 발생하는 입력 기반(input-heavy) 오버헤드와 연산 단계 간 성능 저하 문제를 해결합니다. Agentic 워크플로우는 도구 사용 및 메모리 검색으로 인해 컨텍스트가 반복적으로 길어지며, 이는 Prefilling 단계가 전체 추론의 주요 병목이 되게 합니다 .

#Review #Agentic LLMs #Model Quantization #Prefilling #Decoding #NVFP4 #Efficiency

2026년 5월 20일

[논문리뷰] LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

본 논문은 긴 비디오 생성 시 발생하는 메모리 병목 현상과 낮은 연산 효율 문제를 해결하기 위해 시스템과 알고리즘이 통합된 인프라 LongLive-2.0을 제안한다.

#Review #Long Video Generation #NVFP4 #Sequence Parallelism #Autoregressive Diffusion #KV Cache Quantization #Balanced SP

2026년 5월 18일

[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석

SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.

#LLM #KV Cache #Quantization #Optimization #SGLang #FP4 #NVFP4

2026년 4월 29일

[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입

Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.

#SGLang #Diffusion #NVFP4 #CUTLASS #Performance

2026년 4월 4일

[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Video Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.

#Review #Video Diffusion Transformers #Mixed-Precision Quantization #Inference Acceleration #Temporal Delta Cache #NVFP4 #INT8 #Post-Training Quantization #Memory Reduction

2026년 3월 25일