[논문리뷰] Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short본 논문은 RLVR의 고질적인 문제인 Non-diverse reward group으로 인한 학습 신호 소실과 컴퓨팅 자원 낭비를 해결하는 것을 목표로 합니다.#Review#Reasoning Arena#RLVR#Trace Tournament#Bradley-Terry Model#Non-diverse Reward Group#Adaptive Routing2026년 6월 8일댓글 수 로딩 중