[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

2026년 4월 15일수정: 2026년 4월 15일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu

1. Key Terms & Definitions (핵심 용어 및 정의)

PreRL (Pre-train Space Reinforcement Learning): 모델의 입력(Input) 조건을 제거한 marginal distribution $P(y)$를 직접 최적화하여 보상 기반의 온라인 업데이트를 수행하는 새로운 패러다임.
NSR (Negative Sample Reinforcement): 낮은 보상을 받는 샘플에 대해 확률 질량을 줄임으로써 잘못된 추론 경로를 제거하고, 내재된 반성적 행동을 유도하는 기법.
DSRL (Dual Space RL): NSR-PreRL로 초기화하여 추론 영역을 확장한 뒤, standard RL로 전환하여 정교한 fine-grained 최적화를 수행하는 Policy Reincarnation 전략.
RLVR (Reinforcement Learning with Verifiable Rewards): 검증 가능한 보상을 사용하여 조건부 분포 $P(y|x)$를 최적화함으로써 LLM의 복잡한 추론 능력을 강화하는 기존의 사후 학습 패러다임.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다. 반면, pre-training은 방대한 지식을 내재화하지만 정적인 말뭉치(static corpora)에 의존하는 수동적 학습 방식이라는 한계가 있다. 저자들은 이러한 한계를 극복하기 위해 보상 기반의 온라인 학습을 pre-train space로 확장하는 새로운 접근이 필요함을 제시한다 [Figure 1].

Figure 1: DSRL 아키텍처 및 학습 다이내믹스

Figure 1 — DSRL 아키텍처 및 학습 다이내믹스

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구는 PreRL 방법론을 제안하며, marginal distribution $P(y)$의 기울기(gradient)와 조건부 분포 $P(y|x)$의 기울기가 강력하게 정렬(aligned)됨을 이론적·실험적으로 입증하였다 [Figure 2]. 제안된 DSRL은 NSR-PreRL을 통해 초기 단계에서 잘못된 추론 경로를 빠르게 가지치기하고, 추론에 필요한 내재적 능력을 활성화한다. 실험 결과, DSRL은 Qwen3-4B 및 Qwen3-8B 모델에서 기존의 GRPO baseline 대비 AIME24 등 다양한 벤치마크에서 일관된 성능 우위를 보였다 [Table 1]. 특히, NSR-PreRL은 전환(transition) 사고와 반성(reflection) 사고를 각각 14.89배, 6.54배 증가시키는 등 추론 효율성을 획기적으로 개선하였다 [Figure 3]. 결과적으로, DSRL은 standard RL 대비 더 적은 학습 단계로 높은 정확도를 달성하며, 우수한 샘플 효율성과 더불어 강력한 일반화 성능을 입증하였다 [Figure 4].

Figure 2: marginal 및 conditional 분포의 정렬 분석

Figure 2 — marginal 및 conditional 분포의 정렬 분석

Figure 3: PreRL 대 standard RL의 학습 효율성 및 추론 사고 증가 비교

Figure 3 — PreRL 대 standard RL의 학습 효율성 및 추론 사고 증가 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 pre-train space 내에서의 보상 기반 최적화가 LLM의 추론 능력을 근본적으로 강화하는 효과적인 surrogate임을 증명하였다. NSR-PreRL의 활용과 DSRL 프레임워크의 제안은 사후 학습 중심의 RL 패러다임에 새로운 전환점을 제시한다. 이 연구는 단순히 지식을 내재화하는 것을 넘어, active한 reward-driven 최적화를 통해 모델의 내재적 탐색 능력을 유지·확장할 수 있음을 보여준다. 이는 향후 LLM 정렬(alignment) 및 추론 강화 연구에서 pre-train space 활용의 중요성을 강조하는 강력한 학술적 근거를 제공한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself
현재글 : [논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space
다음글 [논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents