#Entropy Balancing

1개의 포스트

[논문리뷰] Agentic Entropy-Balanced Policy Optimization

본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.

#Review #Agentic Reinforcement Learning #Web Agents #Tool Learning #Entropy Balancing #Policy Optimization #Rollout Strategy #Large Language Models

2025년 10월 17일