[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.#Review#GUI Agents#Adventure Games#Benchmark#Full Story Arc#Observation-Behavior Gap#LLMs#Automated Evaluation2025년 9월 3일댓글 수 로딩 중