[논문리뷰] ProAct: Agentic Lookahead in Interactive Environments
링크: 논문 PDF로 바로 열기
저자: Yangbin Yu*, Mingyu Yang*, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhencheng Lu, Deheng Ye, Jie Jiang†, Tencent Huaiyan
핵심 연구 목표
ProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.
핵심 방법론
이 프레임워크는 두 단계의 훈련 패러다임을 제안합니다. 첫째, Grounded Lookahead Distillation (GLAD) 은 환경과 상호작용하는 Monte-Carlo Tree Search (MCTS) 를 통해 탐색된 궤적을 간결한 추론 체인으로 압축하여 감독 학습(SFT) 으로 훈련합니다. 둘째, Monte-Carlo Critic (MC-Critic) 은 경량 랜덤 정책 롤아웃 을 활용하여 낮은 분산의 가치 추정치를 제공함으로써 PPO 및 GRPO 와 같은 표준 RL 알고리즘의 안정성을 높이고 예측 추론 정확도를 정제합니다.
주요 결과
ProAct로 훈련된 4B 파라미터 모델 은 2048 및 Sokoban 벤치마크에서 모든 오픈소스 베이스라인을 능가하는 성능을 보였습니다. 특히 2048 4x4 그리드에서 4503.8점 , Sokoban 기본 수준에서 0.94점 을 달성하며, 일부 최신 상용 모델과 견줄만한 결과를 보여줍니다. 또한, 학습 과정에서 접하지 않은 환경 변형에 대해서도 강력한 일반화 능력 을 입증했습니다.
AI 실무자를 위한 시사점
ProAct는 복잡한 인터랙티브 환경에서 LLM 에이전트의 실용성 을 크게 향상시킬 수 있는 효과적인 프레임워크를 제공합니다. GLAD 를 통해 LLM의 환각 현상 을 줄이고 현실에 기반한 추론 능력을 강화하는 것은 신뢰성 높은 에이전트 개발에 필수적입니다. 또한, MC-Critic 은 기존 RL 파이프라인에 쉽게 통합되어 가치 추정의 안정성 을 높이고 장기적인 보상 시나리오에서 학습 효율을 개선하는 데 기여합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks
- 현재글 : [논문리뷰] ProAct: Agentic Lookahead in Interactive Environments
- 다음글 [논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?