#Token-level Advantage

1개의 포스트

[논문리뷰] OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

본 논문은 에이전트 강화학습에서 outcome-based RL의 희소하고 지연된 보상이 중간 의사결정에 대한 세밀한 신용 할당(credit assignment)을 제공하지 못하는 문제를 해결합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Distillation #Skill Extraction #Hindsight Supervision #Hierarchical Skills #Self-Distillation #Token-level Advantage

2026년 6월 25일