[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.#Review#Self-Play#Open-Ended Tasks#Reinforcement Learning#Rubric Reward#Retrieval-Augmented Generation#Co-Evolution#Data-Free2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.#Review#LLM Agents#Long-Horizon Tasks#Skill Discovery#Co-Evolution#Skill Bank#Reinforcement Learning2026년 4월 23일댓글 수 로딩 중