[논문리뷰] Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents본 논문은 메모리 기반 LLM agent가 장기적인(long-horizon) 과업 수행 시 발생하는 성능 저하 문제를 해결하기 위해 연구되었습니다.#Review#LLM Agents#Long-Horizon Reasoning#Belief Entropy#Memory Optimization#Reinforcement Learning#Metacognition2026년 6월 4일댓글 수 로딩 중