#Image Cropping

1개의 포스트

[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

기존 MLLM이 지식 집약적 시각 질의응답(VQA)에서 겪는 정보 부족, 정체된 데이터, 비효율적인 검색 쿼리 등의 한계를 극복하기 위해, 멀티모달 LLM이 온디맨드 다중 턴 웹 검색 을 수행하고 이미지와 텍스트 검색 도구 모두에 대해 동적으로 쿼리를 생성 및 개선 하는 능력을 부여하는 것을 목표로 합니다.

#Review #Multimodal LLM #Web Search #Visual Question Answering #Reinforcement Learning #Image Cropping #Self-Correction #Tool Use

2025년 10월 15일