[llm-compressor] Magnitude Pruning: 크기 기반과 상수 희소성 ModifierMagnitudePruningModifier가 가중치 크기만으로 pruning을 수행하는 data-free 구조와, ConstantPruningModifier가 기존 마스크를 유지하는 방식 분석#llm-compressor#Pruning#Magnitude2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Wanda: 활성화 가중 노름 기반 가지치기Wanda 논문의 |W| * ||X||_2 중요도 공식이 llm-compressor에서 어떻게 구현되는지, SparseGPT와의 비교 분석#llm-compressor#Wanda#Pruning2026년 4월 13일댓글 수 로딩 중
[llm-compressor] SparseGPT: 원샷 LLM 가지치기 구현SparseGPT 논문의 OBS 기반 가지치기가 llm-compressor에서 어떻게 구현되는지, Hessian 누적과 2:4 sparsity 마스크 생성 분석#llm-compressor#SparseGPT#Pruning2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Pruning Overview: OBCQ 계열 Modifier 구조llm-compressor의 pruning/obcq 계층이 SparseGPT/Wanda/Magnitude Pruning을 어떻게 공통 베이스로 추상화하는지 분석#llm-compressor#Pruning#Overview2026년 4월 13일댓글 수 로딩 중
[llm-compressor] 프로젝트 전체 아키텍처 분석 - 개요 및 목차llm-compressor의 전체 아키텍처를 11개 계층으로 분석하고, 45개 포스트와 8편 논문 구현을 정리한 시리즈의 개요 포스트#llm-compressor#Architecture#Quantization#Pruning#PTQ2026년 4월 13일댓글 수 로딩 중
[논문리뷰] Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data본 논문은 Lottery Ticket Hypothesis (LTH) 가 하나의 보편적인 'winning ticket'을 가정하여 실제 데이터의 내재된 이질성을 간과하는 한계를 해결하고자 합니다.#Review#Pruning#Lottery Ticket Hypothesis#Adaptive Subnetworks#Heterogeneous Data#Model Efficiency#Conditional Computation#Subnetwork Collapse2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Ministral 3본 연구는 컴퓨팅 및 메모리 제약이 있는 환경 을 위한 효율적인 매개변수 효율적(parameter-efficient) 밀집 언어 모델 인 Ministral 3 시리즈를 개발하는 것을 목표로 합니다.#Review#Large Language Models#Model Distillation#Pruning#Parameter-Efficient AI#Multimodal LLMs#Instruction Tuning#Reinforcement Learning from Human Feedback#Open-Source AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.#Review#LLM Compression#Quantization#Pruning#Edge AI#Adaptive Deployment#Transformer#State Space Models#Hybrid Models#One-shot Compression2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.#Review#Streaming Video LLMs#Token Compression#ViT Encoding#LLM Prefilling#Causal Compression#Caching#Pruning#Low-latency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다.#Review#Code Reasoning#CoT Compression#LLMs#Efficiency#Surprisal#Pruning#Fine-tuning#Large Reasoning Models2025년 8월 11일댓글 수 로딩 중