[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.#Review#Reinforcement Learning#Large Language Models#Verifiable Rewards#Policy Optimization#Error Correction#Reasoning Capability2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Reasoning Capability#Sparse Activation#Scaling Laws#FP8 Training#Efficient Training#Instruction Tuning2025년 11월 9일댓글 수 로딩 중