#Gradient-Guided

1개의 포스트

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일