[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.#Review#GUI Grounding#Vision-Language Models#Positional Embedding#UI Automation#Coordinate Prediction#Resolution Generalization#Transformer Architecture2025년 10월 6일댓글 수 로딩 중