본문으로 건너뛰기

[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

링크: 논문 PDF로 바로 열기

저자: Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma

핵심 연구 목표

기존 Generative Reward Models (GRMs)Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다. 본 연구는 Mix-GRM이라는 프레임워크를 통해 폭넓은 원리 커버리지(Breadth-CoT)심층적인 판단 건전성(Depth-CoT) 을 결합하여 태스크 요구사항에 맞춰 추론 메커니즘을 동적으로 조정하는 것을 목표로 합니다.

핵심 방법론

Mix-GRM은 비정형적인 추론 과정을 "Principle-Judgment-Verdict" 단위로 표준화하고, 이를 모듈식 합성 파이프라인을 통해 구조화된 B-CoTD-CoT 로 재구성합니다. B-CoT 는 다양한 원리들을 병렬적으로 집계하며, D-CoT 는 추론 과정을 통해 판단의 건전성을 확장합니다. 이후 모델은 혼합 데이터셋을 사용한 Supervised Fine-Tuning (SFT) 과 검증 가능한 보상을 통한 Reinforcement Learning (RLVR) 을 통해 이러한 메커니즘을 내재화하고 최적화합니다.

주요 결과

Mix-GRM은 5가지 벤치마크에서 새로운 최첨단 성능을 달성하며, 기존 오픈소스 Reward Models (RMs) 대비 평균 8.2% 높은 정확도를 보였습니다. B-CoT 는 주관적 선호도 태스크에서 유리한 반면, D-CoT 는 객관적 정확성 태스크에서 뛰어난 성능을 입증했습니다. 특히 RLVR 를 통해 Mix-GRM은 성능을 4.3% 향상시켰고, 모델이 태스크 요구사항에 맞춰 추론 스타일을 자발적으로 조정하는 긴급한 양극화(emergent polarization) 를 보였습니다.

AI 실무자를 위한 시사점

LLM 평가를 위한 Reward Model 개발 시, 단순히 추론의 길이를 늘리는 것을 넘어 태스크의 본질에 맞는 추론 메커니즘을 동적으로 선택하고 적용 하는 것이 중요함을 시사합니다. B-CoTD-CoT 의 통합은 다양한 LLM 생성 결과의 품질을 보다 정확하고 신뢰성 있게 평가하는 데 기여할 수 있습니다. 특히 RLVR 와 같은 강화 학습은 모델이 복잡한 태스크에서 최적의 추론 전략을 자율적으로 학습하도록 유도할 수 있어, Reward Model 학습 및 배포 전략 수립에 실용적인 가치를 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글