[논문리뷰] Latent Reasoning with Normalizing Flows
링크: 논문 PDF로 바로 열기
메타데이터
저자: Guancheng Tu, Xiangjun Fu, Suhao Yu, Yao Tang, Haoqiang Kang, Lianhui Qin, Yizhe Zhang, Jiatao Gu
1. Key Terms & Definitions (핵심 용어 및 정의)
- NF-CoT: Normalizing Flow를 LLM의 causal stream 내에 통합하여 연속적인(continuous) 사고 과정을 모델링하고 샘플링하는 프레임워크입니다.
- Continuous CoT: 기존의 텍스트 기반 Chain-of-Thought(CoT)를 압축된 고차원 연속 임베딩 상태로 표현하여, 추론의 효율성을 극대화한 방식입니다.
- Normalizing Flow (NF): 복잡한 데이터 분포를 가우시안 분포와 같은 단순한 기저 분포로 가역 변환(invertible transformation)하여, 정확한 Likelihood 평가와 효율적인 샘플링을 가능하게 하는 확률 모델입니다.
- Execution-guided RL: 코드 실행 결과(Unit-test feedback)를 보상으로 사용하여, 잠재 공간에서의 정책(policy)을 미세 조정함으로써 정답 생성 정확도를 높이는 강화학습 기법입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 연구는 기존 텍스트 기반 Chain-of-Thought(CoT)의 높은 추론 비용과 정보 밀도 부족 문제를 해결하고자 합니다. 기존의 잠재 추론(Latent reasoning) 방식들은 효율적인 연속 상태를 제공하지만, Autoregressive 샘플링, 확률적 평가, KV-cache 호환성 등 LLM의 핵심적인 강점을 희생하는 한계가 있었습니다 [Figure 1]. 특히, 확산 모델(Diffusion model) 기반의 기존 연구들은 반복적인 디노이징(denoising) 과정이 필요하여 추론 속도가 느리고, 명시적인 Likelihood 계산이 어렵다는 단점이 있습니다. 저자들은 이러한 제약을 극복하고 연속적인 사고 과정에도 LLM의 자연스러운 생성 및 평가 인터페이스를 그대로 유지할 수 있는 프레임워크가 필요하다고 판단했습니다.

Figure 1 — 추론 패러다임 비교
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 Normalizing Flow를 LLM 백본 내에 직접 배치하여 연속적인 사고를 확률적 과정으로 모델링하는 NF-CoT를 제안합니다 [Figure 2]. 제안 모델은 훈련 시 Frozen VAE 인코더를 통해 명시적 CoT를 연속적인 타깃으로 변환하고, 이를 가역적인 Flow 블록을 통해 LLM 친화적인 잠재 공간으로 재매개변수화합니다. 이후 LLM은 하나의 Causal pass 내에서 연속적인 사고를 먼저 생성한 뒤, 동일한 KV-cache를 사용하여 최종 텍스트 답변을 생성하는 방식으로 통합됩니다 [Figure 2]. 주요 실험 결과, NF-CoT (Unified) 모델은 MBPP 및 HumanEval 벤치마크에서 기존 SFT 대비 +13.0%의 평균 Pass@1 향상을 달성했습니다 [Table 1]. 또한, 추론 과정에서 기존 확산 모델 기반 방식(LaDiR) 대비 약 1.92배 더 빠른 속도를 보이며, 연산 효율성 측면에서도 큰 우위를 점했습니다 [Table 2]. 특히, RL 적용 시에도 Pass@k diversity가 붕괴되지 않고 유지되는 강점을 확인했습니다 [Figure 4].

Figure 2 — NF-CoT 전체 파이프라인

Figure 4 — RL 적용 후 Pass@k 변화
4. Conclusion & Impact (결론 및 시사점)
본 논문은 Normalizing Flow를 활용하여 연속적인 잠재 사고 과정을 LLM과 동일한 Likelihood 모델링 체계 내에 성공적으로 통합했습니다. NF-CoT는 기존 방법론들이 겪던 샘플링 속도 및 평가 인터페이스 문제를 해결하여, 보다 효율적이고 구조화된 추론이 가능함을 입증했습니다. 이 연구는 대규모 언어 모델에서 잠재적 추론 능력을 확보함과 동시에, 강화학습을 통해 모델의 논리적 사고를 직접적으로 개선할 수 있는 새로운 경로를 제시했다는 점에서 학계와 산업계에 중요한 시사점을 제공합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization
- [논문리뷰] Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation?
- [논문리뷰] Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation
- [논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
- [논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning
Review 의 다른글
- 이전글 [논문리뷰] LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs
- 현재글 : [논문리뷰] Latent Reasoning with Normalizing Flows
- 다음글 [논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing
댓글