[논문리뷰] Generative Recursive Reasoning
링크: 논문 PDF로 바로 열기
메타데이터
저자: Junyeob Baek, Mingyu Jo, Minsu Kim, Mengye Ren, Yoshua Bengio, Sungjin Ahn
1. Key Terms & Definitions (핵심 용어 및 정의)
- GRAM (Generative Recursive reAsoning Models): Recursive Latent Reasoning 과정을 확률적 다중 궤적(Stochastic Multi-trajectory)으로 변환하여, 결정론적 한계를 극복하고 다양한 가설과 해법을 탐색하는 프레임워크입니다.
- Latent Process Reward Model (LPRM): Latent State로부터 최종 결과의 품질을 예측하여, inference-time에서 여러 생성된 궤적 중 최적의 candidate를 선택하도록 돕는 가치 기반 모델입니다.
- Stochastic Latent Transitions: 결정론적인 latent 업데이트 대신, 학습 가능한 stochastic guidance($\epsilon_t$)를 추가하여 reasoning trajectory의 분산과 탐색을 지원하는 핵심 매커니즘입니다.
- Recursive Reasoning Models (RRMs): 모델 파라미터 증대 없이 재귀적 계산(Shared Transition Functions)을 반복하여 연산 깊이를 조절하고, 반복적인 latent state 정제를 수행하는 reasoning 시스템입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 Recursive Reasoning Models(RRMs)가 지닌 결정론적 성격으로 인한 탐색 능력 저하와 다중 해법 문제 해결의 한계를 해결하고자 합니다. 기존 모델(예: HRM, TRM)은 고정된 latent trajectory를 따라 단일 해법으로 수렴하며, 복잡한 제약 조건이나 다중 솔루션 환경에서 suboptimal trajectory에 고착되는 문제를 보입니다 [Figure 1]. 이러한 결정론적 재귀 연산은 복잡한 추론 과정에서 필요한 Uncertainty 유지나 대안적 가설 고려가 어렵다는 구조적 취약점을 안고 있습니다. 따라서 저자들은 효율적인 재귀 모델의 장점을 유지하면서도, 확률적 다중 경로를 탐색할 수 있는 확장 가능한 새로운 아키텍처를 정의하고자 합니다.

Figure 1 — 결정론적 RRMs와 GRAM의 추론 궤적 비교
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 Recursive Reasoning을 latent-variable generative process로 공식화한 GRAM을 제안합니다 [Figure 2]. GRAM은 hierarchical latent state(고수준 $h$, 저수준 $l$)를 도입하고, 학습 가능한 확률적 안내(Stochastic Guidance)를 통해 반복적인 재귀 단계마다 다양한 latent 경로를 생성합니다. 이를 통해 조건부 확률 $p_\theta(y|x)$ 모델링뿐만 아니라, 입력이 없는 unconditional generation까지 가능하게 합니다. 실험 결과, GRAM은 Sudoku-Extreme 및 ARC-AGI와 같은 제약 조건 추론 문제에서 기존 deterministic baseline(Looped TF, HRM, TRM)을 상회하는 성능을 보였습니다 [Figure 3]. 특히, Inference-time에서 parallel sampling(Width scaling)을 적용할 경우, 단순한 재귀 깊이(Depth) 증가보다 훨씬 효율적으로 성능을 향상시킬 수 있음을 입증했습니다 [Figure 4]. N-Queens와 같은 다중 솔루션 태스크에서 결정론적 모델 대비 월등한 Solution Coverage(90.3% vs 36.1% 이하)를 기록하며 제안 방법론의 우수성을 증명했습니다 [Table 1].

Figure 2 — GRAM의 계층적 재귀 구조 아키텍처

Figure 3 — 주요 퍼즐 벤치마크 성능 비교
4. Conclusion & Impact (결론 및 시사점)
본 연구는 Recursive Reasoning에 확률적 생성 프레임워크를 결합함으로써, 결정론적 재귀 모델이 갖지 못한 강력한 탐색 능력과 생성 성능을 확보했습니다. GRAM이 도입한 확률적 latent guidance는 모델의 크기를 키우지 않고도 추론 과정의 Uncertainty를 효과적으로 다룰 수 있음을 보여주었으며, 이는 향후 추론 효율성과 확장성 측면에서 중요한 설계 원칙을 제시합니다. 다만, 심층 지도 학습에 기반한 순차적 학습 구조로 인한 학습 속도의 제약은 향후 대규모 foundation model로의 확장에 있어 해결해야 할 과제로 남아 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization
- [논문리뷰] Scaling Test-Time Compute for Agentic Coding
- [논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning
- [논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning
- [논문리뷰] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
Review 의 다른글
- 이전글 [논문리뷰] Evaluating Temporal Semantic Caching and Workflow Optimization in Agentic Plan-Execute Pipelines
- 현재글 : [논문리뷰] Generative Recursive Reasoning
- 다음글 [논문리뷰] HRM-Text: Efficient Pretraining Beyond Scaling
댓글