[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.#Review#Reinforcement Learning#Large Language Models#Instruction Optimization#Policy Co-Evolution#Agentic AI#Tool-Integrated Reasoning#Self-Reflection2025년 12월 1일댓글 수 로딩 중