[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.#Review#DeepThink#Process Reward Model#Inference Algorithm#Population Refinement#Stochastic Mutation#Reasoning Benchmarks#Compute-Accuracy Tradeoff2026년 3월 3일댓글 수 로딩 중