[논문리뷰] CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization본 논문은 RLVR 환경에서 기존 정책 최적화 방식들이 겪는 불균일한 credit assignment 문제를 해결하기 위해 CEPO를 제안합니다. 기존의 GRPO와 같은 방식은 전체 시퀀스에 동일한 보상을 부여하여 결정적 추론 단계와 단순 서술 토큰을 구분하지 못하는 한계가 있습니다.#Review#RLVR#Credit Assignment#Self-Distillation#Contrastive Learning#Policy Optimization#Information Leakage2026년 5월 19일댓글 수 로딩 중