[논문리뷰] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection본 논문은 고해상도 UI 스크린샷에서 발생하는 수천 개의 시각 토큰으로 인한 Vision-Language Models (VLMs) 의 UI Grounding 작업의 높은 계산 오버헤드와 주의 분산 문제를 해결하는 것을 목표로 합니다.#Review#UI Grounding#Visual Token Reduction#Position-Preserving#Vision-Language Models (VLMs)#Saliency Scoring#Computational Efficiency#Human-Computer Interaction2026년 1월 14일댓글 수 로딩 중