#Multi-turn Environments

1개의 포스트

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일