#Model Compression

16개의 포스트

[논문리뷰] HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

본 논문은 기존의 MoE 압축 방식들이 전문가 간의 결합 가능성을 평가할 때 사용하는 pairwise 점수의 구조적 한계를 해결하고자 합니다.

#Review #Sparse Mixture-of-Experts #Simplicial Complex #Hodge Decomposition #Harmonic Kernel #Model Compression #Topological Deep Learning

2026년 5월 17일

[논문리뷰] GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

본 연구는 GUI Agent를 모바일 기기와 같은 자원 제약 환경에 효과적으로 배포하기 위해, 기존 대규모 VLM이 가진 과도한 연산 비용과 메모리 요구사항 문제를 해결하고자 한다. 대부분의 최신 VLM은 2.5B 이상의 파라미터를 사용하여 온디바이스 환경에서 활용하기 어렵다는 한계가 있다.

#Review #GUI Agent #Vision-Language Model #Visual Grounding #Data Refinement #Model Compression #Encoder-Decoder Architecture

2026년 4월 28일

[논문리뷰] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

다중 모달리티 대규모 언어 모델(MLLMs)에서 채널별 스무딩 양자화(channel-wise smoothing quantization) 기법이 시각 및 텍스트 토큰 활성화의 큰 차이로 인해 실패하는 문제를 해결하는 것이 목표입니다.

#Review #Multimodal LLMs #Post-Training Quantization #Modality-Aware Smoothing #Cross-Modal Compensation #Quantization #Model Compression #SVD-based Whitening

2026년 3월 5일

[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.

#Review #Quantization #Large Language Models #Post-Training Quantization #Bit-Plane Decomposition #Variable Quantization Grid #Low-Bit Quantization #Model Compression #Hessian-Induced Geometry

2026년 2월 15일

[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

ROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.

#Review #Model Compression #LLM #Training-Free #Knapsack Problem #Sparse Matrix Factorization #Dictionary Learning #Post-Training Optimization #Weight Sparsification

2026년 2월 11일

[논문리뷰] RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

논문은 LLM의 극단적인 2비트 양자화에서 발생하는 성능과 효율성 간의 치명적인 트레이드오프 를 해결하고자 합니다.

#Review #LLM Quantization #2-bit Quantization #Residual Binarization #Quantization-Aware Training (QAT)#Inter-Path Adaptation #Hardware Efficiency #Model Compression #Low-Bit LLMs

2026년 2월 8일

[논문리뷰] Black-Box On-Policy Distillation of Large Language Models

본 논문은 내부 로짓이나 파라미터에 접근할 수 없는 블랙박스(black-box) 대규모 언어 모델(LLM) 을 대상으로, 학생 모델이 교사 모델의 텍스트 출력만을 학습하는 온-정책(on-policy) 증류(distillation) 방법을 개발하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Knowledge Distillation (KD)#Black-box Distillation #Generative Adversarial Networks (GANs)#On-policy Learning #Reinforcement Learning #Minimax Game #Model Compression

2025년 11월 13일

[논문리뷰] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms

이 논문은 기존 연구에서 다루지 않았던 트랜스포머 아키텍처 의 핵심 구성 요소인 Multi-Head Attention (MHA) 메커니즘 에 대한 Strong Lottery Ticket Hypothesis (SLTH) 를 이론적으로 확립하는 것을 목표로 합니다.

#Review #Strong Lottery Ticket Hypothesis #Multi-Head Attention #Transformers #Neural Network Pruning #Overparameterization #Weight Initialization #Model Compression

2025년 11월 9일

[논문리뷰] A Survey on Efficient Vision-Language-Action Models

이 논문은 대규모 Vision-Language-Action (VLA) 모델 이 직면한 막대한 계산 및 데이터 요구사항으로 인해 실제 로봇 환경에 배포되기 어려운 문제를 해결하는 것을 목표로 합니다.

#Review #Embodied AI #Robotic Manipulation #VLA Models #Efficient AI #Model Compression #Efficient Training #Data Collection #Multimodal AI

2025년 11월 9일

[논문리뷰] Quantized Visual Geometry Grounded Transformer

대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.

#Review #Quantization #Post-Training Quantization #3D Reconstruction #Visual Transformer #Model Compression #Efficient Inference #Hadamard Rotation #Calibration Sampling

2025년 9월 26일

[논문리뷰] GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

본 연구는 대규모 언어 모델(LLM) 기반 임베딩 모델의 배포 문제를 해결하기 위해, 기존 가지치기(pruning) 방법론이 일반적인 의미론적 표현과 도메인 특화 패턴을 구분하지 못하여 발생하는 비최적화된 가지치기 결정 의 한계를 극복하고자 합니다.

#Review #Model Pruning #Domain Adaptation #Embedding Models #Gradient Alignment #Fisher Information #Model Compression #LLMs

2025년 9월 16일

[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.

#Review #Diffusion Models #Quantization #Few-Step Generation #Model Compression #Noise Scheduling #Post-Training Quantization #Image Quality Metrics #Latent Consistency Models

2025년 9월 10일

[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

본 연구는 확산 기반 대규모 언어 모델(dLLM) 의 효율적인 배포를 저해하는 막대한 파라미터 규모 및 높은 자원 요구량을 해결하고자 합니다.

#Review #Diffusion LLMs #Post-training Quantization (PTQ)#Model Compression #Activation Outliers #Quantization Methods #Efficient Deployment #Large Language Models

2025년 8월 21일

[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Mamba-Transformer #Reasoning LLM #Model Compression #Knowledge Distillation #Long Context #High Throughput #FP8 Training #Instruction Following

2025년 8월 21일

[논문리뷰] A Survey on Diffusion Language Models

본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.

#Review #Diffusion Language Models #Generative AI #Parallel Decoding #Text Generation #Multimodal AI #Model Compression #Reinforcement Learning from Human Feedback #Inference Optimization

2025년 8월 15일

[논문리뷰] OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

대규모 텍스트-이미지 확산 모델의 과도한 연산 비용 문제를 해결하고, 기존 원샷 네트워크 가지치기(pruning) 방법론이 확산 모델의 반복적인 노이즈 제거 특성 과 복잡한 아키텍처 에 직접 적용하기 어려운 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Network Pruning #One-Shot Pruning #Optimal Brain Surgeon (OBS)#Model Compression #Timestep-Aware Hessian #Structured Pruning

2025년 10월 9일