#Non-diverse Reward Group

1개의 포스트

[논문리뷰] Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

본 논문은 RLVR의 고질적인 문제인 Non-diverse reward group으로 인한 학습 신호 소실과 컴퓨팅 자원 낭비를 해결하는 것을 목표로 합니다.

#Review #Reasoning Arena #RLVR #Trace Tournament #Bradley-Terry Model #Non-diverse Reward Group #Adaptive Routing

2026년 6월 8일