#Deep and Wide Search

1개의 포스트

[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant

기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.

#Review #Search Agents #Information Seeking #Benchmark #LLM-driven Agents #Human Trajectories #Deep and Wide Search #Deterministic Evaluation #Dynamic Evaluation

2026년 2월 9일