#LLM Compression

6개의 포스트

[논문리뷰] SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices

본 논문은 기존의 LLM 압축 기법들이 가중치 분해 시 발생하는 정밀도 저하와 그로 인한 성능 손실을 효과적으로 극복하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Compression #SVD #Low-Rank Decomposition #Weight Quantization #Model Pruning #Parameter Efficiency

2026년 6월 8일

[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.

#Review #LLM Compression #Quantization #Pruning #Edge AI #Adaptive Deployment #Transformer #State Space Models #Hybrid Models #One-shot Compression

2025년 12월 3일

[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

다양한 규모와 배포 목적에 맞는 LLM(Large Language Model) 패밀리 를 개별적으로 훈련하는 데 드는 막대한 비용 문제를 해결하고자 합니다.

#Review #LLM Compression #Elastic Networks #Knowledge Distillation #Hybrid Mamba-Attention #Reasoning LLMs #Multi-Budget Training #Zero-Shot Deployment

2025년 11월 20일

[논문리뷰] Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

본 논문은 대규모 언어 모델(LLMs)의 효율적인 배포를 위해 양자화(Quantization) 와 희소화(Sparsification) 를 동시에 적용하는 새로운 압축 방법을 제안합니다.

#Review #LLM Compression #Quantization #Sparsification #Post-training Quantization #Hessian-based Optimization #Error Compensation #Low-bit LLMs

2025년 9월 17일

[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.

#Review #Mixture-of-Experts (MoE)#LLM Compression #Matrix Decomposition #Parameter Efficiency #Deep Learning #Memory Optimization

2025년 8월 12일

[논문리뷰] BitNet Distillation

본 논문은 기존의 풀-정밀도 LLM (예: Qwen )을 특정 다운스트림 태스크를 위해 1.58비트 정밀도 (삼진 가중치: {-1, 0, 1}) 로 미세 조정하여, 최소한의 계산 비용으로 풀-정밀도 모델에 필적하는 성능을 달성하는 것을 목표로 합니다.

#Review #Low-bit Quantization #LLM Compression #Knowledge Distillation #Ternary Weights #Inference Optimization #Memory Efficiency #SubLN #Continual Pre-training

2025년 10월 17일