[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

2026년 2월 9일수정: 2026년 2월 9일

링크: 논문 PDF로 바로 열기

저자: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang

핵심 연구 목표

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다. 이를 해결하기 위해, 사용자 지침에 따라 미래 GUI 상태를 예측하는 이미지 생성 모델의 동적 상호작용 및 시간적 일관성 을 종합적으로 평가하는 벤치마크인 GEBench 를 제안합니다.

핵심 방법론

연구진은 700개의 샘플로 구성된 GEBench 벤치마크를 5가지 태스크(단일 단계, 다중 단계, 가상의 앱, 실제 앱, 그라운딩 기반)로 분류하여 모델의 GUI 생성 능력을 다각도로 평가합니다. 평가를 위해 Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, Visual Quality 의 5가지 차원을 평가하는 GE-Score 라는 다차원 메트릭을 제안하며, VLM(Vision Language Model) 기반 심판 을 활용하여 객관적인 평가를 수행합니다.

주요 결과

평가 결과, 현재 모델들은 단일 단계 전환 에서는 Nano Banana Pro Google (2025b) 및 GPT-image-1.5 OpenAI (2025) 가 80점 이상의 높은 GE-Score를 달성하며 우수한 성능을 보였습니다. 하지만 다중 단계 계획 및 공간 그라운딩 태스크에서는 성능이 크게 저하되어 Multi-step Planning 시 60점 미만, Grounding 태스크의 Goal Achievement 점수는 Nano Banana Pro Google (2025b) 조차 23.9% 에 불과했습니다. GE-Score 는 인간 평가와 0.9892의 높은 Pearson 상관계수 를 보여 신뢰성을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 이미지 생성 모델을 활용한 GUI 환경 시뮬레이션에서 아이콘 해석, 텍스트 렌더링, 정밀한 위치 파악 이 주요 병목 현상임을 명확히 보여줍니다. 이는 AI/ML 엔지니어들이 시각적 사실성 외에 시간적 일관성과 공간적 정확성 을 우선적으로 고려하여 차세대 GUI 생성 모델을 개발해야 함을 시사합니다. GEBench 와 GE-Score 는 GUI 에이전트 훈련을 위한 고품질 생성형 GUI 환경 개발에 필수적인 평가 기준을 제공할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models
현재글 : [논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments
다음글 [논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant