[논문리뷰] RefAM: Attention Magnets for Zero-Shot Referral Segmentation컴퓨터 비전 태스크에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.#Review#Zero-Shot Segmentation#Referring Segmentation#Diffusion Transformers (DiTs)#Attention Mechanisms#Attention Sinks#Stop Words#Vision-Language Models#Training-Free Methods2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Multimodal Referring Segmentation: A Survey이 논문은 이미지, 비디오, 3D 장면과 같은 다양한 시각적 맥락에서 텍스트 또는 오디오 참조 표현을 기반으로 특정 객체를 분할하는 다중모드 참조 분할(Multimodal Referring Segmentation) 분야에 대한 포괄적인 최신 조사를 제공하는 것을 목표로 합니다.#Review#Multimodal Learning#Referring Segmentation#Vision-Language Models#Image Segmentation#Video Segmentation#3D Vision#Survey2025년 8월 4일댓글 수 로딩 중