[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

2026년 6월 1일수정: 2026년 6월 1일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Atoosa Chegini, Soheil Feizi, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Chunk-Level Guided Generation: 생성 과정 중 고정된 길이($L$)의 청크 단위로 후보군을 샘플링하고, 대형 모델(Large Model)이 이를 스코어링하여 최적의 경로를 선택하는 추론 프레임워크입니다.
Likelihood-Guided Selection (LGS): 대형 모델의 length-normalized log-probability를 사용하여 최적의 청크를 선택하는 방식입니다.
Contrastive-Guided Selection (CGS): 대형 모델의 log-probability에서 소형 모델(Small Model)의 log-probability를 차감하여, 대형 모델의 선호도가 뚜렷한 후보를 우선시하는 스코어링 규칙입니다.
Process Reward Model (PRM): 추론 단계별(step-level) 정확성을 평가하기 위해 별도의 보상 모델 학습(Training)이 필요한 기존의 유도 방식입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다. 기존의 사후 선택(Post-hoc selection) 방식인 Majority Voting이나 Best-of-N은 이미 오류가 발생한 전체 경로를 선택할 수밖에 없어 중간 단계에서의 보정이 불가능하다는 구조적 문제가 있습니다. 반면, PRM guided search는 중간 단계 보정을 위해 별도의 보상 모델을 학습시켜야 하므로 자원 소모가 크고 범용성이 낮습니다. 저자들은 학습(Training) 없이 오프더셀프(Off-the-shelf) 대형 모델의 가능성(Likelihood)만을 활용하여 추론 중 단계적으로 개입할 수 있는 대안을 제시합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 대형 모델의 로그 확률을 활용하여 고정된 길이의 청크를 평가하는 Chunk-Level Guided Generation 프레임워크를 제안합니다. 제안된 CGS는 대형 모델과 소형 모델 간의 로그 확률 차이를 이용해 추론의 품질을 효과적으로 선별합니다. 실험 결과, CGS는 학습이 필요한 PRM guided search와 비교하여 매칭된 가이드 예산(Guidance budget) 내에서 대등하거나 더 우수한 성능을 입증하였습니다. 특히, Qwen2.5-1.5B 모델을 대형 모델로 가이드했을 때 GSM8K 벤치마크에서 기존 Majority voting 대비 최대 28%p 향상된 정확도를 기록했습니다. 또한, 가변 길이 단계 평가 시 발생하는 길이 편향(Length bias) 문제를 고정 길이 청크 도입으로 해결하였으며, 이는 Figure 1의 분석을 통해 검증되었습니다 [4.4]. 결과적으로, CGS는 별도의 학습 과정 없이도 최상위권의 추론 성능을 달성하면서도 더 짧은 추론 경로를 생성하는 효율성을 보였습니다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 고가의 대형 모델을 직접 추론에 사용하는 대신, 학습 없이 오프더셀프 모델의 가능성만을 활용하여 소형 모델의 추론을 가이드하는 효과적인 방식을 제안합니다. 이 방법론은 PRM 학습에 필요한 대규모의 step-level 데이터셋과 훈련 비용을 획기적으로 줄여줄 수 있다는 점에서 학계와 산업계에 큰 시사점을 줍니다. 특히 고정 길이 청크 기반의 직관적인 가이드 방식은 다양한 오픈소스 LLM 조합에 즉시 적용 가능하여 실용적인 추론 최적화 기법으로 활용될 것으로 기대됩니다.

Figure 1: 가변 길이 단계의 길이 편향 분석

Figure 1 — 가변 길이 단계의 길이 편향 분석

Figure 2: 청크 길이(L)에 따른 CGS 정확도

Figure 2 — 청크 길이(L)에 따른 CGS 정확도

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Not only where, But when: Temporal Scheduling for RLVR
현재글 : [논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
다음글 [논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters