[논문리뷰] Detect Anything via Next Point Prediction본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Object Detection#Coordinate Prediction#Reinforcement Learning#Supervised Fine-tuning#Visual Perception#Zero-shot Learning#Spatial Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.#Review#GUI Grounding#Vision-Language Models#Positional Embedding#UI Automation#Coordinate Prediction#Resolution Generalization#Transformer Architecture2025년 10월 6일댓글 수 로딩 중