#Benchmark Design

3개의 포스트

[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.

#Review #Search Agents #Intrinsic Knowledge Dependence (IKD)#Deep Search #Benchmark Design #Evidence-Led Discovery

2026년 5월 27일

[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts

이 논문은 Multimodal Large Language Model (MLLM)이 시각적 이해 없이 비시각적 단축키(편향, 언어적 선험지식, 피상적인 패턴)를 악용하여 멀티모달 벤치마크에서 높은 점수를 얻는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Benchmark Design #Non-Visual Shortcuts #Test-Set Stress-Test #Bias Mitigation #Model Evaluation #Benchmark Robustness

2025년 11월 9일

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.

#Review #Video Retrieval #Multimodal Embedding #Data Synthesis #Curriculum Learning #Zero-shot Generalization #Benchmark Design #MLLM #Video-Text Retrieval

2025년 11월 9일