[논문리뷰] Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing저자들은 샘플의 학습 상태에 따라 적절한 최적화 방식을 할당하는 SRPO (Sample-Routed Policy Optimization)를 제안합니다 . SRPO는 정답 샘플에 대해서는 GRPO의 보상 정렬(reward-aligned) 강화를 적용하고, 오류 샘플 중 피드백 정보가 가용한 경우에는 SDPO의 정밀한 logit 수준 교정을 적용합니다.#Review#RLVR#GRPO#SDPO#Sample Routing#Policy Optimization#Self-Distillation2026년 4월 6일댓글 수 로딩 중