[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

2026년 2월 3일수정: 2026년 2월 3일

링크: 논문 PDF로 바로 열기

저자: Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang

핵심 연구 목표

본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다. 이는 긴 궤적을 갖는 실제 환경에서 발생하는 희소한 이진 결과 보상(binary outcome rewards) 문제 를 해결하고, 효과적인 학습을 위한 자동화된 보상 및 환경 적응의 필요성을 충족합니다.

핵심 방법론

RLAnything는 정책을 단계별 신호(step-wise signals) 와 최종 결과 신호(outcome signals) 를 통합한 피드백으로 학습시키고, 보상 모델은 일관성 피드백(consistency feedback) 을 통해 공동 최적화합니다. 또한, 정책 및 보상 모델의 크리틱 피드백을 활용하여 자동 환경 난이도 적응 을 구현하며, 이는 학습 경험으로부터의 개선을 가능하게 하는 동적 폐쇄 루프 시스템 을 구축합니다.

주요 결과

RLAnything는 각 구성 요소를 추가할 때마다 전체 시스템 성능이 일관되게 향상됨을 입증했습니다. 특히, OSWorld 에서 Qwen3-VL-8B-Thinking 성능을 9.1% 향상시켰고, AlfWorld 및 LiveBench 에서 Qwen2.5-7B-Instruct 성능을 각각 18.7% 및 11.9% 향상시켰습니다. 최적화된 보상 모델 신호는 사람의 라벨에 의존하는 결과보다 우수한 성능을 보였습니다.

AI 실무자를 위한 시사점

이 프레임워크는 복잡하고 긴 궤적의 LLM 및 에이전트 시스템에서 학습 효율성을 크게 향상 시킬 수 있는 잠재력을 제시합니다. 동적인 환경 적응과 보상 모델 최적화를 통해 수동 라벨링 의존도를 줄이고 확장 가능한 능동 학습 을 가능하게 하여, 실세계 에이전트의 개발과 배포에 중요한 영향을 미칠 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss
현재글 : [논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
다음글 [논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization