[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.#Review#Large Language Models#Reinforcement Learning#RLVR#Unlearnability#Gradient Outliers#Representation Learning2026년 5월 20일댓글 수 로딩 중