[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.#Review#Multimodal Agents#Image Retrieval#Context-Aware#Visual Histories#Benchmarking#Vision-Language Models#Agentic AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Relational Visual Similarity본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.#Review#Relational Similarity#Visual Similarity#Vision-Language Models#Anonymous Captioning#Image Retrieval#Analogical Reasoning#Dataset Curation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.#Review#Retrieval Augmented Generation#Multiview Diffusion#Text-to-3D Generation#Out-of-Domain#Image Retrieval#3D Consistency#Diffusion Models#Hybrid Training2025년 8월 26일댓글 수 로딩 중