#Multi-turn interaction

1개의 포스트

[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.

#Review #Vision-language models #High-resolution crops #Tool-calling #Efficiency #Reinforcement Learning #Multi-turn interaction #Data curation #Spatial-on-demand

2026년 3월 23일