#Tournament-based Ranking

1개의 포스트

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일