#Minimal Intervention

1개의 포스트

[논문리뷰] Learning Agentic Policy from Action Guidance

본 논문은 Agentic RL에서 기반 모델의 탐색 능력이 부족할 때 발생하는 학습 정체 문제를 해결하고자 합니다. 기존의 Agentic RL은 보상 상태가 모델의 'In-capability region'을 벗어난 경우, 유효한 학습 신호를 얻지 못해 훈련이 중단되는 구조적 한계를 가집니다 .

#Review #Agentic Reinforcement Learning #Action Guidance #Reachability Barrier #Minimal Intervention #Mixed-Policy Optimization

2026년 5월 13일