본문으로 건너뛰기

[논문리뷰] One Forward Beats Two: InnerZoom for Accurate and Efficient GUI Grounding

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Chen Liu, Ling Chen, Hanzhang Zhou, Liangyu Chen, Chenglin Cai, Xin Yu, Steven Hoi, Yue Wang


1. Key Terms & Definitions (핵심 용어 및 정의)

  • GUI Grounding: 사용자 명령어와 GUI 스크린샷을 바탕으로 상호작용 가능한 정확한 클릭 좌표를 예측하는 기술입니다.
  • Region-to-Point Gap: 중간 계층(Intermediate Layer)에서는 타겟 영역(Target Region)을 잘 식별함에도 불구하고, 최종 좌표 예측 시점에 정보가 소실되어 정확도가 떨어지는 현상을 지칭합니다.
  • InnerZoom: 외부 크롭(Crop)이나 추가 추론 패스 없이, 단일 Forward Pass 내에서 중간 계층의 시각적 증거를 보존하고 강화하여 좌표 예측을 가이드하는 프레임워크입니다.
  • Evidence Workspace: 계층 간에 타겟 관련 시각적 정보를 공유하고 점진적으로 정제하기 위해 도입된 메모리 슬롯 구조입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 MLLM 기반의 GUI Grounding에서 나타나는 비효율성과 정확도 저하 문제를 해결하고자 합니다. 기존의 ZoomIn 계열 방식은 타겟 영역을 외부에서 크롭하여 두 번 추론(Two-pass)함으로써 정확도를 높였으나, 이는 Latency를 증가시키고 계산 비용을 높이는 원인이 됩니다. 저자들은 중간 Decoder Layer에서 타겟에 대한 높은 활성화 응답이 나타남에도 불구하고, 최종 좌표 토큰 생성 단계에서 해당 지역 정보가 보존되지 않는 Region-to-Point Gap을 발견했습니다. 따라서 추가적인 추론 비용 없이 이러한 시각적 증거를 효율적으로 활용하는 기법이 필요합니다 [Figure 2].

Figure 2: Region-to-Point Gap 분석

Figure 2 — Region-to-Point Gap 분석

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 단일 Forward Pass 내에서 계층 간 증거를 브릿징하는 InnerZoom을 제안합니다. InnerZoom은 중간 계층의 응답을 바탕으로 타겟 영역의 미가공 시각적 특징을 추출하고, 이를 Iterative Dual-Slot Evidence Adapter를 통해 지속적으로 정제하며, 최종 좌표 생성 시점에 KV 투영(Projection)을 통해 관련 증거를 재주입합니다 [Figure 3]. 이 방식은 외부 크롭 없이도 정교한 위치 정보를 모델 내부에서 유지하게 합니다. 실험 결과, InnerZoom-4B 모델은 6개의 GUI Grounding 벤치마크에서 SOTA 성능을 기록했습니다. 구체적으로 OSWorld-G 64.7, UI-Vision 40.2, MMBench-GUI 87.6의 정확도를 달성하며 기존 최상위 모델들을 각각 4.1, 3.2, 2.3 포인트 상회했습니다 [Table 1]. 또한, 기존 ZoomIn 방식 대비 End-to-End Latency를 최대 31.8%까지 절감하는 성과를 보였습니다 [Table 2].

Figure 3: InnerZoom 전체 아키텍처

Figure 3 — InnerZoom 전체 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 연구는 GUI Grounding 성능을 저해하는 근본 원인이 정보 부족이 아닌 정보의 비연속적 전달임을 규명하고, 이를 해결하는 효율적인 InnerZoom 프레임워크를 정립했습니다. 본 논문의 방법론은 별도의 외부 연산 없이 모델의 내부적 잠재력을 극대화하여 추론 효율성과 정확도를 동시에 개선했습니다. 이는 향후 실시간 상호작용이 중요한 GUI Agent 시스템 구축에 있어 매우 중요한 기여를 할 것으로 예상됩니다.


Figure 1: 기존 ZoomIn과 InnerZoom 비교

Figure 1 — 기존 ZoomIn과 InnerZoom 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글