[논문리뷰] SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer본 논문은 실시간 스트리밍 Video-to-Video(V2V) 편집에서 발생하는 시간적 일관성 유지와 추론 성능 제한 문제를 해결하기 위해 SANA-Streaming을 제안한다.#Review#Diffusion Transformer#Streaming Video Editing#Hybrid Architecture#Cycle-Reverse Regularization#Mixed-Precision Quantization#Real-time Inference2026년 5월 31일댓글 수 로딩 중
[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion ModelsVideo Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.#Review#Video Diffusion Transformers#Mixed-Precision Quantization#Inference Acceleration#Temporal Delta Cache#NVFP4#INT8#Post-Training Quantization#Memory Reduction2026년 3월 25일댓글 수 로딩 중
[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.#Review#Mixed-Precision Quantization#Reinforcement Learning#Post-Training Quantization#Large Language Models#Policy Transfer#Scale Folding#GGUF#On-Device Inference2026년 3월 18일댓글 수 로딩 중
[논문리뷰] SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs본 논문은 대규모 언어 모델(LLMs)을 극단적인 저비트 양자화(예: 2비트, 4비트 MXFP4) 시 발생하는 심각한 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Post-Training Quantization (PTQ)#Large Language Models (LLMs)#Low-Bit Quantization#Mixed-Precision Quantization#Sensitivity Metric#Quantization Scale Initialization#Accuracy Preservation2025년 12월 4일댓글 수 로딩 중