[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 로 튜닝된 LLM 이 때로는 불량한(spurious) 보상 에도 불구하고 성능 향상을 보이는 'Spurious Rewards Paradox' 현상을 기계론적으로 이해하는 것을 목표로 합니다.#Review#RLVR#LLMs#Mechanistic Interpretability#Memorization Shortcuts#Data Contamination#Anchor-Adapter Circuit#Path Patching#Logit Lens2026년 1월 19일댓글 수 로딩 중