[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Entropy Regularization#Policy Optimization#Sparse Rewards#Multi-turn Environments#Exploration-Exploitation2025년 9월 29일댓글 수 로딩 중