[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Planning#Policy Gradient#Q-learning#Supervised Fine-Tuning#Diversity Collapse#Reward Hacking2025년 10월 1일댓글 수 로딩 중