[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

2026년 3월 3일수정: 2026년 3월 3일

링크: 논문 PDF로 바로 열기

저자: Rituraj Sharma, Weiyuan Chen, Noah Provenzano, Tu Vu

핵심 연구 목표

논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다. DEEPTHINK 프레임워크를 기능적으로 분해하고 단계별 정확성 신호 를 통합하여 이 문제를 해결하는 것이 목표입니다.

핵심 방법론

제안하는 PRISM은 Process Reward Model (PRM) -guided 추론 알고리즘으로, DEEPTHINK를 population creation, population enhancement, solution aggregation 세 단계로 분해합니다. 특히 population refinement 단계에서 PRISM은 후보 솔루션을 PRM이 정의한 에너지 Landscape 내 입자로 취급하고, score-guided resampling 과 Metropolis-Hastings-style stochastic refinement 를 통해 확률 질량을 고품질 추론에 집중시킵니다. 최종 결과는 가장 높은 PRM 점수 를 가진 후보를 선택하는 방식으로 집계됩니다.

주요 결과

PRISM은 AIME25에서 90.0% , HMMT25에서 75.4% , GPQA Diamond에서 71.4% 의 정확도를 달성하며 gpt-oss-20b 모델 이 gpt-oss-120b 모델 과 동등하거나 능가하는 성능을 보이도록 합니다. 이는 기존 DEEPTHINK 방법론 대비 경쟁력 있거나 우수한 결과이며, NetFlip 측정 을 통해 일관된 순방향 오류 수정이 이루어짐을 입증합니다. 또한, compute-accuracy Pareto frontier 상에 위치하여 컴퓨팅 자원을 효율적으로 사용함을 보여줍니다.

AI 실무자를 위한 시사점

PRISM은 단계별 검증 을 통해 LLM의 추론 정확성과 효율성을 크게 향상시킬 수 있는 실용적인 방법론을 제시합니다. 이는 Process Reward Model (PRM) 의 중요성을 강조하며, 더 작은 모델(예: gpt-oss-20b )로도 더 큰 모델(예: gpt-oss-120b )에 필적하는 성능을 달성할 수 있어 비용 효율적인 AI 시스템 구축 에 기여할 수 있습니다. 특히 초기 정확도가 낮은 상황에서도 견고함을 보여, 복잡한 문제 해결 을 위한 LLM의 신뢰성을 높이는 데 핵심적인 통찰을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Next Embedding Prediction Makes World Models Stronger
현재글 : [논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference
다음글 [논문리뷰] Qwen3-Coder-Next Technical Report