[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.#Review#Video Question Answering#Open-domain Search#Multimodal LLMs#Agentic AI#Benchmark#Video Understanding#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning본 연구는 LLM 기반 에이전트의 현실적인 금융 데이터 검색 및 추론 능력을 평가하기 위한 종단 간(end-to-end) 벤치마크 의 부재를 해결하는 것을 목표로 합니다.#Review#Financial LLMs#Agent Benchmarking#Open-domain Search#Financial Reasoning#Time-Sensitive Data#Multi-hop QA#Tool Use2025년 9월 19일댓글 수 로딩 중