[논문리뷰] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion ModelsVideo Diffusion Transformers (DiTs)는 탁월한 비디오 생성 능력을 보여주지만, 높은 메모리 사용량과 막대한 계산 비용으로 인해 실제 배포에 심각한 제약을 받는다.#Review#Video Diffusion Transformers#Mixed-Precision Quantization#Inference Acceleration#Temporal Delta Cache#NVFP4#INT8#Post-Training Quantization#Memory Reduction2026년 3월 25일댓글 수 로딩 중
[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.#Review#Mixed-Precision Quantization#Reinforcement Learning#Post-Training Quantization#Large Language Models#Policy Transfer#Scale Folding#GGUF#On-Device Inference2026년 3월 18일댓글 수 로딩 중
[논문리뷰] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models다중 모달리티 대규모 언어 모델(MLLMs)에서 채널별 스무딩 양자화(channel-wise smoothing quantization) 기법이 시각 및 텍스트 토큰 활성화의 큰 차이로 인해 실패하는 문제를 해결하는 것이 목표입니다.#Review#Multimodal LLMs#Post-Training Quantization#Modality-Aware Smoothing#Cross-Modal Compensation#Quantization#Model Compression#SVD-based Whitening2026년 3월 5일댓글 수 로딩 중
[논문리뷰] COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression본 논문은 Transformer 모델의 사후 학습 압축에서 발생하는 정확도 저하 문제를 해결하고자 합니다.#Review#Transformer Compression#Matrix Factorization#Sparse Dictionary Learning#Post-Training Quantization#Procrustes Analysis#Orthogonal Dictionary#Dynamic Allocation2026년 2월 17일댓글 수 로딩 중
[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.#Review#Quantization#Large Language Models#Post-Training Quantization#Bit-Plane Decomposition#Variable Quantization Grid#Low-Bit Quantization#Model Compression#Hessian-Induced Geometry2026년 2월 15일댓글 수 로딩 중
[논문리뷰] SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs대규모 언어 모델(LLMs)의 배포에 있어 저비트 양자화(low-bit quantization) 와 희소화(sparsification) 기술이 정확도와 효율성 사이에서 균형을 맞추기 어려운 문제를 해결하는 것이 목표입니다.#Review#LLM Quantization#Sparsification#Hardware Acceleration#Mixed-Precision#Post-Training Quantization#Data Format#GPU Optimization#AI Accelerator2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Quantized Visual Geometry Grounded Transformer대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.#Review#Quantization#Post-Training Quantization#3D Reconstruction#Visual Transformer#Model Compression#Efficient Inference#Hadamard Rotation#Calibration Sampling2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.#Review#Diffusion Models#Quantization#Few-Step Generation#Model Compression#Noise Scheduling#Post-Training Quantization#Image Quality Metrics#Latent Consistency Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness본 연구는 대규모 언어 모델(LLM)의 효율적인 배포를 위해 널리 사용되는 Post-Training Quantization (PTQ) 의 견고성이 훈련 과정 및 동적 특성에 의해 어떻게 영향을 받는지 규명하는 것을 목표로 합니다.#Review#Post-Training Quantization#Quantization Robustness#Training Dynamics#Learning Rate Schedules#Weight Averaging#Large Language Models#LLMs#Hyperparameter Tuning2025년 10월 8일댓글 수 로딩 중