[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#GRPO#Sparse Rewards#Self-Hinting#Policy Optimization#Adaptive Curriculum#On-Policy Training2026년 2월 4일댓글 수 로딩 중