본문으로 건너뛰기

[논문리뷰] OpenClaw-RL: Train Any Agent Simply by Talking

링크: 논문 PDF로 바로 열기

저자: Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang

핵심 연구 목표

본 논문은 AI 에이전트가 사용자 피드백, 툴 실행 결과, GUI 상태 변화 등 "다음 상태 신호(next-state signals)" 를 통해 실시간으로 지속적인 학습을 수행하도록 하는 프레임워크를 제안합니다. 개인용 대화형 에이전트부터 터미널, GUI, SWE, 툴 호출 에이전트에 이르는 다양한 상호작용 유형에 걸쳐 단일 정책이 학습할 수 있는 통합된 온라인 RL 시스템 을 구축하는 것이 목표입니다. 궁극적으로 에이전트가 단순히 사용되는 것만으로 개선될 수 있도록 합니다.

핵심 방법론

OpenClaw-RL 프레임워크는 정책 서빙, 환경 호스팅, PRM(Process Reward Model) 심사 , 정책 훈련의 네 가지 구성 요소를 완전히 분리된 비동기식 아키텍처 로 구현합니다. 핵심 학습 방법론은 두 가지입니다. 첫째, 이진 RL(Binary RL)PRM 심사 를 통해 다음 상태 신호에서 스칼라 과정 보상 을 추출합니다. 둘째, Hindsight-Guided On-Policy Distillation (OPD) 은 다음 상태에서 텍스트 힌트를 추출하여 향상된 교사 컨텍스트 를 구성하고, 토큰-레벨 방향성 어드밴티지(directional advantage) 지도 를 제공합니다. 일반 에이전트의 경우, PRM 을 통해 얻은 단계별 과정 보상 과 최종 결과 보상을 통합하여 학습합니다.

주요 결과

개인 에이전트 트랙에서 이진 RL과 OPD를 결합한 방법 이 가장 효과적인 최적화를 달성하여, 8단계 업데이트 후 0.76 , 16단계 업데이트 후 0.81 의 개인화 점수를 기록했습니다(기본 점수 0.17). 이는 이진 RL 단독(0.25, 0.23)OPD 단독(0.25, 0.72) 대비 상당한 성능 향상을 보입니다. 일반 에이전트의 경우, 과정 보상을 통합했을 때 툴 호출 에이전트의 성능이 0.30 으로 (결과만 사용 시 0.17 대비), GUI 에이전트의 성능이 0.33 으로 (결과만 사용 시 0.31 대비) 개선되어 긴 지평선(long-horizon) 태스크 에서 과정 보상의 중요성을 입증했습니다.

AI 실무자를 위한 시사점

이 연구는 AI 에이전트가 라이브 상호작용 데이터 를 통해 지속적으로 학습하고 진화할 수 있는 강력한 패러다임을 제시합니다. 토큰-레벨의 세밀한 지시적 피드백거시적인 스칼라 보상 을 동시에 활용하는 하이브리드 학습 접근법 은 에이전트 성능 향상에 큰 영향을 미칠 수 있습니다. 또한, 비동기식 프레임워크 는 서빙 중단 없이 대규모 환경에서의 확장 가능한 RL 훈련 을 가능하게 하여, 실세계에 배포된 AI 에이전트의 자동 최적화 및 개인화 역량을 크게 향상시킬 잠재력을 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글