[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.#Review#LLM Agents#Long-term Memory#Implicit Conflict#State Tracking#Belief Revision#Adjudication2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Rethinking State Tracking in Recurrent Models Through Error Control Dynamics본 논문은 recurrent 아키텍처의 상태 추적(state tracking) 능력이 단순히 이론적 표현력(expressivity)만으로 결정되지 않으며, hidden-state의 drift를 제어하는 에러 제어(error control) 역학에 의해 좌우된다는 점을 규명합니다.#Review#State Tracking#Recurrent Models#Error Control#Affine Recurrences#State-Space Models#Symbolic Dynamics2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams본 논문은 실세계의 동적 환경에서 지식이 지속적으로 진화하거나 점진적으로 출현할 때 대규모 언어 모델(LLMs) 이 이에 적응하는 능력의 한계를 해결하고자 합니다.#Review#Online Adaptation#Continual Learning#Knowledge Streams#Large Language Models#Benchmarking#State Tracking#Retrieval Augmented Generation#Agentic Memory2026년 3월 11일댓글 수 로딩 중
[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.#Review#Long-Context LLMs#Autonomous Agents#Benchmark#Environment Rollouts#State Tracking#Tool Use#Memory Evaluation#Lateral Thinking Puzzles2026년 1월 29일댓글 수 로딩 중