[논문리뷰] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

2026년 2월 11일수정: 2026년 2월 11일

링크: 논문 PDF로 바로 열기

저자: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 훈련을 위한 다양하고 신뢰할 수 있는 환경의 부족 문제 를 해결하고자 합니다. 특히, 실제 환경의 높은 비용과 확장성 한계, 그리고 LLM 기반 시뮬레이션 환경의 환각(hallucination) 문제 및 비효율성 을 극복하여 에이전트의 강화 학습을 위한 무한한 합성 환경 을 제공하는 것을 목표로 합니다.

핵심 방법론

저자들은 Agent World Model (AWM) 이라는 완전 합성 환경 생성 파이프라인을 제안합니다. 이 파이프라인은 시나리오를 바탕으로 데이터베이스 스키마와 샘플 데이터 를 생성하고, MCP (Model Context Protocol) 인터페이스 를 통해 에이전트가 도구를 사용할 수 있도록 하며, 코드 기반 검증 로직과 LLM-as-a-Judge 를 결합하여 신뢰성 높은 보상을 제공합니다. 또한, 생성 과정에 자동화된 실행 및 자가 수정 메커니즘 을 도입하여 일관성을 확보합니다.

주요 결과

AWM 파이프라인은 1,000개의 고유한 환경과 10,000개의 태스크 를 성공적으로 합성했으며, 생성 단계에서 85% 이상의 성공률 을 보였습니다. AWM에서 훈련된 에이전트는 BFCLv3, T²-bench, MCP-Universe 등 세 가지 외부 벤치마크에서 강력한 Out-of-Distribution 일반화 성능 을 입증했습니다. 특히, BFCLv3 종합 점수에서 8B 모델은 65.94% 를 달성하여 Simulator 모델(52.53%) 을 크게 상회했습니다.

AI 실무자를 위한 시사점

AWM은 에이전트 강화 학습을 위한 확장 가능하고 신뢰할 수 있는 합성 환경 을 제공하여 연구 진입 장벽을 낮춥니다. 특히 코드 기반의 상태 일관성 은 LLM 기반 시뮬레이션보다 안정적인 학습 신호를 제공하고 RL 지연 시간을 줄일 수 있음을 시사합니다. 하지만 합성 환경이 실제 시나리오를 완전히 반영하지 않을 수 있으므로, 실제 환경에 적용 시에는 신중한 검증이 필요합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
현재글 : [논문리뷰] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
다음글 [논문리뷰] BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation