#Q-learning

1개의 포스트

[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Planning #Policy Gradient #Q-learning #Supervised Fine-Tuning #Diversity Collapse #Reward Hacking

2025년 10월 1일