[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.#Review#Vision-language models#High-resolution crops#Tool-calling#Efficiency#Reinforcement Learning#Multi-turn interaction#Data curation#Spatial-on-demand2026년 3월 23일댓글 수 로딩 중