[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Deep Research#Benchmark#Visual Search#Textual Search#Cropped Search#Evaluation2026년 2월 2일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Agentic Reasoning#Tool Use#Reinforcement Learning#Faithfulness Evaluation#Policy Optimization#Visual Search#Code Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중