[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.#Review#Search Agents#Intrinsic Knowledge Dependence (IKD)#Deep Search#Benchmark Design#Evidence-Led Discovery2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts이 논문은 Multimodal Large Language Model (MLLM)이 시각적 이해 없이 비시각적 단축키(편향, 언어적 선험지식, 피상적인 패턴)를 악용하여 멀티모달 벤치마크에서 높은 점수를 얻는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Benchmark Design#Non-Visual Shortcuts#Test-Set Stress-Test#Bias Mitigation#Model Evaluation#Benchmark Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.#Review#Video Retrieval#Multimodal Embedding#Data Synthesis#Curriculum Learning#Zero-shot Generalization#Benchmark Design#MLLM#Video-Text Retrieval2025년 11월 9일댓글 수 로딩 중