[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning#Large Language Models (LLMs)#Activity Scheduling#Longest Increasing Subsequence (LIS)#Generalization Limits#Reward Design#Self-consistency2025년 11월 9일댓글 수 로딩 중