[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.#Review#Multimodal Retrieval#Agentic AI#Large Language Models (LLMs)#Visual Tools#Chain-of-Thought (CoT)#Reinforcement Learning#Curriculum Learning#Evidence-Driven Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] V-Thinker: Interactive Thinking with Images본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.#Review#Large Multimodal Models#Interactive Reasoning#Vision-Centric Thinking#Reinforcement Learning#Data Synthesis#Visual Tools#Curriculum Learning#Multimodal AI2025년 11월 9일댓글 수 로딩 중