#Difficulty-Aware Optimization

1개의 포스트

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일