[논문리뷰] Learning Agentic Policy from Action Guidance본 논문은 Agentic RL에서 기반 모델의 탐색 능력이 부족할 때 발생하는 학습 정체 문제를 해결하고자 합니다. 기존의 Agentic RL은 보상 상태가 모델의 'In-capability region'을 벗어난 경우, 유효한 학습 신호를 얻지 못해 훈련이 중단되는 구조적 한계를 가집니다 .#Review#Agentic Reinforcement Learning#Action Guidance#Reachability Barrier#Minimal Intervention#Mixed-Policy Optimization2026년 5월 13일댓글 수 로딩 중