[논문리뷰] Q-ARVD: Quantizing Autoregressive Video Diffusion Models본 논문은 실시간 인터랙티브 비디오 생성을 위한 ARVDs의 추론 비용 문제를 해결하기 위해 모델 양자화(Model Quantization)를 제안합니다.#Review#Autoregressive Video Diffusion Models#Model Quantization#Frame-wise Sensitivity#Outlier-aware Quantization#Dual-scale Quantization2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs본 논문은 Agentic LLM의 추론 과정에서 발생하는 입력 기반(input-heavy) 오버헤드와 연산 단계 간 성능 저하 문제를 해결합니다. Agentic 워크플로우는 도구 사용 및 메모리 검색으로 인해 컨텍스트가 반복적으로 길어지며, 이는 Prefilling 단계가 전체 추론의 주요 병목이 되게 합니다 .#Review#Agentic LLMs#Model Quantization#Prefilling#Decoding#NVFP4#Efficiency2026년 5월 20일댓글 수 로딩 중