#Advantage Collapse

1개의 포스트

[논문리뷰] Learning to Hint for Reinforcement Learning

본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Hint Generation #Advantage Collapse #Transferability

2026년 4월 8일