[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.#Review#LLM Agents#Long-term Memory#Implicit Conflict#State Tracking#Belief Revision#Adjudication2026년 5월 14일댓글 수 로딩 중
[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.#Review#AI Agents#Benchmark#Information Environments#Multi-source Reasoning#Belief Revision#Implicit Personalization2026년 4월 6일댓글 수 로딩 중