[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs다양한 규모와 배포 목적에 맞는 LLM(Large Language Model) 패밀리 를 개별적으로 훈련하는 데 드는 막대한 비용 문제를 해결하고자 합니다.#Review#LLM Compression#Elastic Networks#Knowledge Distillation#Hybrid Mamba-Attention#Reasoning LLMs#Multi-Budget Training#Zero-Shot Deployment2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.#Review#Reasoning LLMs#Reinforcement Learning#PPO#Gradient Clipping#Supervised Fine-tuning#Math Reasoning#Code Generation#Policy Optimization2025년 8월 12일댓글 수 로딩 중