[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Long-context#Sparsity#Activation Patterns#Saliency-guided2026년 4월 16일댓글 수 로딩 중
[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.#sglang#Sparsity#QUEST#NSA#Sparse Pattern2026년 4월 14일댓글 수 로딩 중
[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Sparsity#Scaling Laws#Reasoning Tasks#Memorization#Large Language Models#Generalization Gap#Top-k Routing2025년 8월 27일댓글 수 로딩 중