#Sparsity

3개의 포스트

[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Long-context #Sparsity #Activation Patterns #Saliency-guided

2026년 4월 16일

[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴

SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.

#sglang #Sparsity #QUEST #NSA #Sparse Pattern

2026년 4월 14일

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.

#Review #Mixture-of-Experts (MoE)#Sparsity #Scaling Laws #Reasoning Tasks #Memorization #Large Language Models #Generalization Gap #Top-k Routing

2025년 8월 27일