[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.#Review#Generative Reward Models#Chain-of-Thought#Breadth-CoT#Depth-CoT#Reinforcement Learning#Reward Modeling#Mechanism Alignment2026년 3월 3일댓글 수 로딩 중