#Pruning

10개의 포스트

[llm-compressor] Magnitude Pruning: 크기 기반과 상수 희소성 Modifier

MagnitudePruningModifier가 가중치 크기만으로 pruning을 수행하는 data-free 구조와, ConstantPruningModifier가 기존 마스크를 유지하는 방식 분석

#llm-compressor #Pruning #Magnitude

2026년 4월 13일

[llm-compressor] Wanda: 활성화 가중 노름 기반 가지치기

Wanda 논문의 |W| * ||X||_2 중요도 공식이 llm-compressor에서 어떻게 구현되는지, SparseGPT와의 비교 분석

#llm-compressor #Wanda #Pruning

2026년 4월 13일

[llm-compressor] SparseGPT: 원샷 LLM 가지치기 구현

SparseGPT 논문의 OBS 기반 가지치기가 llm-compressor에서 어떻게 구현되는지, Hessian 누적과 2:4 sparsity 마스크 생성 분석

#llm-compressor #SparseGPT #Pruning

2026년 4월 13일

[llm-compressor] Pruning Overview: OBCQ 계열 Modifier 구조

llm-compressor의 pruning/obcq 계층이 SparseGPT/Wanda/Magnitude Pruning을 어떻게 공통 베이스로 추상화하는지 분석

#llm-compressor #Pruning #Overview

2026년 4월 13일

[llm-compressor] 프로젝트 전체 아키텍처 분석 - 개요 및 목차

llm-compressor의 전체 아키텍처를 11개 계층으로 분석하고, 45개 포스트와 8편 논문 구현을 정리한 시리즈의 개요 포스트

#llm-compressor #Architecture #Quantization #Pruning #PTQ

2026년 4월 13일

[논문리뷰] Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

본 논문은 Lottery Ticket Hypothesis (LTH) 가 하나의 보편적인 'winning ticket'을 가정하여 실제 데이터의 내재된 이질성을 간과하는 한계를 해결하고자 합니다.

#Review #Pruning #Lottery Ticket Hypothesis #Adaptive Subnetworks #Heterogeneous Data #Model Efficiency #Conditional Computation #Subnetwork Collapse

2026년 2월 1일

[논문리뷰] Ministral 3

본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Model Distillation #Pruning #Parameter-Efficient AI #Multimodal LLMs #Instruction Tuning #Reinforcement Learning from Human Feedback #Open-Source AI

2026년 1월 13일

[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.

#Review #LLM Compression #Quantization #Pruning #Edge AI #Adaptive Deployment #Transformer #State Space Models #Hybrid Models #One-shot Compression

2025년 12월 3일

[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.

#Review #Streaming Video LLMs #Token Compression #ViT Encoding #LLM Prefilling #Causal Compression #Caching #Pruning #Low-latency

2025년 12월 1일

[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.

#Review #Code Reasoning #CoT Compression #LLMs #Efficiency #Surprisal #Pruning #Fine-tuning #Large Reasoning Models

2025년 8월 11일