[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.#Review#Self-Play#Open-Ended Tasks#Reinforcement Learning#Rubric Reward#Retrieval-Augmented Generation#Co-Evolution#Data-Free2026년 5월 31일댓글 수 로딩 중
[논문리뷰] LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards본 논문은 기존 long-context 강화학습이 가진 데이터의 낮은 난이도와 보상 신호의 희소성(Sparsity) 문제를 해결하고자 합니다.#Review#Long-Context#Reinforcement Learning#Rubric Reward#Search Agent Trajectories#Tiered Distractors#Multi-hop Reasoning2026년 5월 31일댓글 수 로딩 중