#Reasoning LLMs

2개의 포스트

[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

다양한 규모와 배포 목적에 맞는 LLM(Large Language Model) 패밀리 를 개별적으로 훈련하는 데 드는 막대한 비용 문제를 해결하고자 합니다.

#Review #LLM Compression #Elastic Networks #Knowledge Distillation #Hybrid Mamba-Attention #Reasoning LLMs #Multi-Budget Training #Zero-Shot Deployment

2025년 11월 20일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일