[논문리뷰] DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards본 논문은 시퀀스 단위의 보상을 토큰 단위의 학습 신호로 변환할 때 발생하는 불투명성을 해결하기 위해 DelTA를 제안합니다. 기존의 RLVR 방식은 응답 전체에 대해 단일 스칼라 보상을 부여하지만, 실제 정책 업데이트는 토큰별로 이루어지므로 Granularity(세분성)의 불일치가 존재합니다.#Review#RLVR#Credit Assignment#Discriminator#Policy-Gradient#Token-Level#Centroid2026년 5월 21일댓글 수 로딩 중