[논문리뷰] A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization본 논문은 RLVR 학습 과정에서 발생하는 빈번한 모델 Collapse 문제를 토큰 단위의 경사(Gradient) 역학 관점에서 분석합니다. 기존의 GRPO 스타일 최적화 기법들은 오프라인 샘플을 재사용하는 과정에서 정책 드리프트나 비대칭적인 경사 업데이트로 인해 학습이 불안정해지는 한계가 있습니다.#Review#RLVR#Policy Optimization#Gradient Dynamics#WAPO#Training Stability#Token-level Taxonomy2026년 6월 16일댓글 수 로딩 중