#Coordinate Prediction

2개의 포스트

[논문리뷰] Detect Anything via Next Point Prediction

본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Object Detection #Coordinate Prediction #Reinforcement Learning #Supervised Fine-tuning #Visual Perception #Zero-shot Learning #Spatial Reasoning

2025년 10월 15일

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.

#Review #GUI Grounding #Vision-Language Models #Positional Embedding #UI Automation #Coordinate Prediction #Resolution Generalization #Transformer Architecture

2025년 10월 6일