#Image Retrieval

4개의 포스트

[논문리뷰] CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

본 논문은 기존의 Cross-view geo-localization 접근 방식인 이미지 검색(Image Retrieval)과 포즈 추정(Pose Estimation)이 별도의 파이프라인으로 운용되어 발생하는 비효율성을 해결하고자 합니다 .

#Review #Cross-view Geo-localization #Image Retrieval #Pose Estimation #Transformer #Multi-task Learning #Bidirectional Cross-attention

2026년 6월 8일

[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.

#Review #Multimodal Agents #Image Retrieval #Context-Aware #Visual Histories #Benchmarking #Vision-Language Models #Agentic AI

2026년 2월 16일

[논문리뷰] Relational Visual Similarity

본 연구는 기존 이미지 유사성 모델들이 시각적 속성(perceptual attribute)에만 집중하여, 인간이 인지하는 추상적이고 관계적인 시각 유사성(relational visual similarity)을 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Relational Similarity #Visual Similarity #Vision-Language Models #Anonymous Captioning #Image Retrieval #Analogical Reasoning #Dataset Curation

2025년 12월 8일

[논문리뷰] MV-RAG: Retrieval Augmented Multiview Diffusion

본 논문은 기존 Text-to-3D 생성 모델이 Out-of-Domain (OOD) 또는 희귀 개념을 처리할 때 겪는 기하학적 불일치, 부정확한 결과 및 현실성 부족 문제를 해결하고자 합니다. 텍스트 프롬프트만으로는 생성하기 어려운 새로운 객체에 대해 일관되고 정확하며 충실한 멀티뷰 출력 을 생성하는 것을 목표로 합니다.

#Review #Retrieval Augmented Generation #Multiview Diffusion #Text-to-3D Generation #Out-of-Domain #Image Retrieval #3D Consistency #Diffusion Models #Hybrid Training

2025년 8월 26일