#Data-Free

1개의 포스트

[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.

#Review #Self-Play #Open-Ended Tasks #Reinforcement Learning #Rubric Reward #Retrieval-Augmented Generation #Co-Evolution #Data-Free

2026년 5월 31일