[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.#Review#Large Language Models#Reinforcement Learning#Pre-train Space#Policy Reincarnation#Negative Sample Reinforcement#Reasoning Enhancement2026년 4월 15일댓글 수 로딩 중