#Belief Revision

2개의 포스트

[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.

#Review #LLM Agents #Long-term Memory #Implicit Conflict #State Tracking #Belief Revision #Adjudication

2026년 5월 14일

[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments

저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.

#Review #AI Agents #Benchmark #Information Environments #Multi-source Reasoning #Belief Revision #Implicit Personalization

2026년 4월 6일