#Visual Evidence

2개의 포스트

[논문리뷰] InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

본 논문은 기존의 멀티모달 에이전트 벤치마크들이 시각적 증거를 단순히 답변의 최종 종착지(Endpoint)로만 취급하여, 실제 정보 탐색 과정에서 시각적 정보가 검색 경로를 제어하는 역할을 간과한다는 문제를 지적합니다.

#Review #Multimodal Agent #Interleaved Search #Visual Evidence #Agentic Search Benchmark #Multimodal Reasoning #Open-web Search

2026년 5월 10일

[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.

#Review #Video Reasoning #Spatio-Temporal Grounding #Large Multimodal Models #Reinforcement Learning #Chain-of-Thought #Visual Evidence #Dataset Curation

2025년 10월 24일