#Self-consistency

1개의 포스트

[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning #Large Language Models (LLMs)#Activity Scheduling #Longest Increasing Subsequence (LIS)#Generalization Limits #Reward Design #Self-consistency

2025년 11월 9일