[논문리뷰] OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning본 논문은 에이전트 강화학습에서 outcome-based RL의 희소하고 지연된 보상이 중간 의사결정에 대한 세밀한 신용 할당(credit assignment)을 제공하지 못하는 문제를 해결합니다 .#Review#Agentic Reinforcement Learning#On-Policy Distillation#Skill Extraction#Hindsight Supervision#Hierarchical Skills#Self-Distillation#Token-level Advantage2026년 6월 25일댓글 수 로딩 중