[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중