[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.#Review#Long-Context LLMs#Autonomous Agents#Benchmark#Environment Rollouts#State Tracking#Tool Use#Memory Evaluation#Lateral Thinking Puzzles2026년 1월 29일댓글 수 로딩 중