[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search기존 MLLM이 지식 집약적 시각 질의응답(VQA)에서 겪는 정보 부족, 정체된 데이터, 비효율적인 검색 쿼리 등의 한계를 극복하기 위해, 멀티모달 LLM이 온디맨드 다중 턴 웹 검색 을 수행하고 이미지와 텍스트 검색 도구 모두에 대해 동적으로 쿼리를 생성 및 개선 하는 능력을 부여하는 것을 목표로 합니다.#Review#Multimodal LLM#Web Search#Visual Question Answering#Reinforcement Learning#Image Cropping#Self-Correction#Tool Use2025년 10월 15일댓글 수 로딩 중