[논문리뷰] Demystifying When Pruning Works via Representation Hierarchies

2026년 4월 7일수정: 2026년 4월 7일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li

1. Key Terms & Definitions (핵심 용어 및 정의)

Network Pruning : 모델의 효율성 향상을 위해 중요도가 낮은 파라미터나 구조(레이어/블록)를 제거하는 모델 압축 기법입니다.
Representation Hierarchy : 모델 추론 파이프라인을 Embedding, Logit, Probability의 세 가지 순차적 공간으로 분해하여 분석하는 프레임워크입니다.
Autoregressive Decoding : 이전 단계에서 생성된 토큰을 입력으로 사용하여 다음 토큰을 생성하는 과정이며, 이로 인해 압축으로 인한 오류가 누적되는 특성을 가집니다.
Softmax Nonlinearity : Logit을 Probability 분포로 변환하는 비선형 연산으로, 본 논문에서는 이 단계가 Pruning으로 인한 섭동(perturbation)을 증폭시키는 핵심 요인임을 증명합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Network Pruning이 비생성적(non-generative) 태스크에서는 성능을 잘 유지하는 반면, 생성적(generative) 태스크에서는 흔히 실패한다는 현상의 근본 원인을 규명합니다. 기존의 Pruning 연구들은 태스크 유형에 따른 이러한 상이한 성능 양상을 체계적으로 설명하지 못했습니다. 특히, 생성적 환경에서의 성능 저하가 단순히 모델 용량의 감소 때문인지, 아니면 압축으로 인한 오류 전파 메커니즘 때문인지에 대한 명확한 이해가 부족했습니다 [Figure 1]. 이를 해결하기 위해 저자들은 모델의 추론 파이프라인을 세 가지 표현 공간으로 분해하여 Pruning이 내부 표현에 미치는 영향을 분석하는 프레임워크를 제안합니다.

Figure 1: 생성/비생성 태스크 간 Pruning 영향력 차이

Figure 1 — 생성/비생성 태스크 간 Pruning 영향력 차이

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 모델의 추론 과정을 Embedding(hidden representations), Logit(pre-softmax), Probability(post-softmax) 공간으로 분해하여 Pruning으로 인한 섭동의 전파 경로를 추적했습니다 [Figure 2]. 연구 결과, Embedding과 Logit 공간은 Pruning에 대해 비교적 강건(robust)함을 보였으나, Softmax 이후의 Probability 공간에서는 비선형 변환으로 인해 섭동이 크게 증폭되는 것이 확인되었습니다 [Figure 4]. 특히, 생성적 태스크에서는 이전 단계의 오류가 다음 단계로 누적되는 Autoregressive 피드백 루프로 인해 이러한 성능 저하가 극대화됨을 이론적으로 입증했습니다 [Figure 7]. 실험 결과, 8개의 Attention/MLP 레이어를 제거한(Drop-8A/8M) 모델의 경우, 다중 선택(multi-choice) 및 검색(retrieval) 태스크에서는 성능이 유지되었으나, GSM8K나 HumanEval과 같은 생성적 태스크에서는 성능이 급격히 붕괴하는 현상을 확인했습니다 [Table 1, Table 2]. 이는 Pruning 적용 시 생성적 태스크에 대해 훨씬 더 보수적인 압축 전략이 필요함을 시사합니다.

Figure 2: 표현 공간별 섭동 전파 프레임워크

Figure 2 — 표현 공간별 섭동 전파 프레임워크

Figure 7: 생성 단계별 표현 유사도 변화

Figure 7 — 생성 단계별 표현 유사도 변화

4. Conclusion & Impact (결론 및 시사점)

본 논문은 Network Pruning이 생성적 태스크와 비생성적 태스크에서 다르게 작용하는 이유를 표현 계층 관점에서 체계적으로 규명했습니다. 핵심 결론은 생성적 태스크의 성능 저하가 Softmax의 비선형성으로 인한 오류 증폭과 Autoregressive 생성 과정에서의 오류 누적 때문이라는 것입니다. 이 연구는 산업계 및 학계에서 모델 압축 기법을 적용할 때 단순히 비생성적 벤치마크 점수만으로 강건성을 판단해서는 안 된다는 중요한 가이드라인을 제공합니다. 향후 더 효율적이고 안정적인 모델 압축 기술을 개발하기 위한 이론적 토대를 마련했다는 점에서 의미가 큽니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
현재글 : [논문리뷰] Demystifying When Pruning Works via Representation Hierarchies
다음글 [논문리뷰] Experience Transfer for Multimodal LLM Agents in Minecraft Game