#Reasoning Capability

2개의 포스트

[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.

#Review #Reinforcement Learning #Large Language Models #Verifiable Rewards #Policy Optimization #Error Correction #Reasoning Capability

2026년 5월 17일

[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Reasoning Capability #Sparse Activation #Scaling Laws #FP8 Training #Efficient Training #Instruction Tuning

2025년 11월 9일