[논문리뷰] Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers본 연구는 이질적인 검색기(retriever)로부터 얻은 후보군들을 융합할 때, 기존의 랭크 기반 융합 방식들이 콘텐츠를 무시하고 랭크나 스코어 신호에만 의존하는 한계를 극복하고자 합니다.#Review#Video Retrieval#Vision-Language Models (VLMs)#Zero-Shot Learning#List-wise Reranking#Rank Fusion#Prompt Engineering#S-Grid#Multimodal Retrieval2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.#Review#Video Retrieval#Multimodal Embedding#Data Synthesis#Curriculum Learning#Zero-shot Generalization#Benchmark Design#MLLM#Video-Text Retrieval2025년 11월 9일댓글 수 로딩 중