#Agentic Capabilities

1개의 포스트

[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Reinforcement Learning (RL)은 LLM Post-Training의 핵심으로 부상하며 Reasoning, Agentic Capabilities, Real-World Problem-Solving 발전에 기여하고 있습니다.

#Review #LLM Post-Training #Cascade RL #Multi-Domain On-Policy Distillation #Mixture-of-Experts #Reasoning #Agentic Capabilities #Competitive Programming #Mathematical Olympiad

2026년 3월 19일