[논문리뷰] Policy and World Modeling Co-Training for Language Agents본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.#Review#Language Agents#Reinforcement Learning#World Modeling#Co-Training#On-policy RL#Clipped MAE#Reward-adaptive Loss2026년 6월 1일댓글 수 로딩 중