#Curriculum Reinforcement Learning

1개의 포스트

[논문리뷰] From Reasoning Chains to Verifiable Subproblems: Curriculum Reinforcement Learning Enables Credit Assignment for LLM Reasoning

본 논문은 난도가 높은 추론 문제에 대해 기존의 RLVR 방식이 가지는 효율성 한계를 해결하고자 한다 . 고난도 문제에서는 최종 정답에 도달하는 경로가 매우 희소하여, 모델이 중간 단계에서 올바른 추론을 수행하더라도 이를 학습 신호로 적절히 환원하기 어렵다.

#Review #Curriculum Reinforcement Learning #LLM Reasoning #Credit Assignment #Verifiable Rewards #Subproblem Decomposition #RLVR

2026년 5월 21일