[논문리뷰] SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices본 논문은 기존의 LLM 압축 기법들이 가중치 분해 시 발생하는 정밀도 저하와 그로 인한 성능 손실을 효과적으로 극복하지 못한다는 문제를 해결하고자 한다.#Review#LLM Compression#SVD#Low-Rank Decomposition#Weight Quantization#Model Pruning#Parameter Efficiency2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Pruning and Distilling Mixture-of-Experts into Dense Language Models본 연구는 MoE 모델의 높은 메모리 요구량으로 인해 발생하는 배포 제약 문제를 해결하기 위해, 전문가 기반 구조를 효율적인 Dense 모델로 변환하는 체계적인 프레임워크를 제안한다.#Review#Mixture-of-Experts#Knowledge Distillation#Model Pruning#D-Optimal Selection#Dense Language Models#Expert Scoring#Submodularity2026년 6월 8일댓글 수 로딩 중
[논문리뷰] F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World최근 Encoder-based 아키텍처에서 Decoder-based LLM embeddings로의 전환은 성능 향상을 가져왔지만, 현재 연구는 두 가지 주요 한계를 가지고 있습니다.#Review#Multilingual Embedding#LLM#Matryoshka Representation Learning#Knowledge Distillation#Model Pruning#MTEB Benchmark#Low-resource Languages#Open-source2026년 3월 19일댓글 수 로딩 중
[논문리뷰] GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings본 연구는 대규모 언어 모델(LLM) 기반 임베딩 모델의 배포 문제를 해결하기 위해, 기존 가지치기(pruning) 방법론이 일반적인 의미론적 표현과 도메인 특화 패턴을 구분하지 못하여 발생하는 비최적화된 가지치기 결정 의 한계를 극복하고자 합니다.#Review#Model Pruning#Domain Adaptation#Embedding Models#Gradient Alignment#Fisher Information#Model Compression#LLMs2025년 9월 16일댓글 수 로딩 중
[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중