[논문리뷰] SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices본 논문은 기존의 LLM 압축 기법들이 가중치 분해 시 발생하는 정밀도 저하와 그로 인한 성능 손실을 효과적으로 극복하지 못한다는 문제를 해결하고자 한다.#Review#LLM Compression#SVD#Low-Rank Decomposition#Weight Quantization#Model Pruning#Parameter Efficiency2026년 6월 8일댓글 수 로딩 중
[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.#Review#LLM Compression#Quantization#Pruning#Edge AI#Adaptive Deployment#Transformer#State Space Models#Hybrid Models#One-shot Compression2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs다양한 규모와 배포 목적에 맞는 LLM(Large Language Model) 패밀리 를 개별적으로 훈련하는 데 드는 막대한 비용 문제를 해결하고자 합니다.#Review#LLM Compression#Elastic Networks#Knowledge Distillation#Hybrid Mamba-Attention#Reasoning LLMs#Multi-Budget Training#Zero-Shot Deployment2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs본 논문은 대규모 언어 모델(LLMs)의 효율적인 배포를 위해 양자화(Quantization) 와 희소화(Sparsification) 를 동시에 적용하는 새로운 압축 방법을 제안합니다.#Review#LLM Compression#Quantization#Sparsification#Post-training Quantization#Hessian-based Optimization#Error Compensation#Low-bit LLMs2025년 9월 17일댓글 수 로딩 중
[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs대규모 MoE 기반 LLM(예: DeepSeek-V3-0324 , Kimi-K2-Instruct )의 막대한 메모리 요구사항으로 인한 배포 병목 현상을 해결하고자 합니다.#Review#Mixture-of-Experts (MoE)#LLM Compression#Matrix Decomposition#Parameter Efficiency#Deep Learning#Memory Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] BitNet Distillation본 논문은 기존의 풀-정밀도 LLM (예: Qwen )을 특정 다운스트림 태스크를 위해 1.58비트 정밀도 (삼진 가중치: {-1, 0, 1}) 로 미세 조정하여, 최소한의 계산 비용으로 풀-정밀도 모델에 필적하는 성능을 달성하는 것을 목표로 합니다.#Review#Low-bit Quantization#LLM Compression#Knowledge Distillation#Ternary Weights#Inference Optimization#Memory Efficiency#SubLN#Continual Pre-training2025년 10월 17일댓글 수 로딩 중