[논문리뷰] InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search본 논문은 기존의 멀티모달 에이전트 벤치마크들이 시각적 증거를 단순히 답변의 최종 종착지(Endpoint)로만 취급하여, 실제 정보 탐색 과정에서 시각적 정보가 검색 경로를 제어하는 역할을 간과한다는 문제를 지적합니다.#Review#Multimodal Agent#Interleaved Search#Visual Evidence#Agentic Search Benchmark#Multimodal Reasoning#Open-web Search2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.#Review#Video Reasoning#Spatio-Temporal Grounding#Large Multimodal Models#Reinforcement Learning#Chain-of-Thought#Visual Evidence#Dataset Curation2025년 10월 24일댓글 수 로딩 중