[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Difficulty-Aware Optimization#Data Augmentation#Policy Optimization#LLMs#GRPO#MQR2026년 1월 28일댓글 수 로딩 중