[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.#Review#GUI Grounding#Uncertainty Calibration#Reinforcement Learning#Confidence Estimation#Brier Score#GUI Agents#Visual-Language Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework본 논문은 기존의 이미지 전체 기반(image-centric) 제로샷 캡셔닝 모델이 지역 단위 캡셔닝에서 낮은 성능을 보이는 문제를 해결하고자 합니다.#Review#Zero-Shot Captioning#Region-Level Captioning#Vision Transformers#DINOv2#Patch-Centric#Modality Gap Mitigation#Visual-Language Models2025년 10월 13일댓글 수 로딩 중