#Vision Foundation Models

13개의 포스트

[논문리뷰] RaysUp: Ultra-light Universal Feature Upsampling via Geometry-Aware Ray Representation

본 논문은 현대 컴퓨터 비전의 핵심인 VFM이 가지는 고해상도 정보 부족 문제를 해결하기 위해 RaysUp을 제안한다 . 기존의 feature upsampling 방식들은 고정된 2D 인접 영역에 의존하거나 특정 모델에 종속되어 재학습이 필요한 등 범용성과 효율성 측면에서 한계가 있다.

#Review #Feature Upsampling #Vision Foundation Models #Ray Representation #Geometry-Aware #Cross-Attention #3D Geometric Priors

2026년 6월 29일

[논문리뷰] IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

본 논문은 VFM 기반의 RAE가 재구성 품질과 의미 보존 사이에서 겪는 근본적인 병목 현상을 해결하고자 합니다. 기존 연구들은 주로 깊은 계층의 의미론적 정보에만 의존하는데, 이는 디테일한 시각적 속성(색상, 텍스트, 로컬 구조 등)을 소실시키는 결과를 초래합니다.

#Review #Representation Autoencoder #Vision Foundation Models #Vector Quantization #Autoregressive Generation #Semantic Preservation #Reconstruction Fidelity

2026년 6월 11일

[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.

#Review #Vision Foundation Models #Semantic Correspondence #Benchmark #Object-Centric Representation #Transfer Learning #Feature Extraction

2026년 6월 1일

[논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

본 논문은 RAE의 frozen VFM 인코더가 갖는 낮은 공간적 재구성 능력이 고품질 이미지 생성 및 세밀한 편집을 제한하는 문제를 해결하고자 합니다. 기존의 RAE 모델은 고수준의 의미론적 정보를 잘 유지하지만, VFM 학습 목적 상 색상이나 텍스처와 같은 저수준 세부 정보가 누락되는 경향이 있습니다 .

#Review #Representation Autoencoders #Vision Foundation Models #Detail-Condensing Queries #Latent Diffusion Models #Image Tokenizer #Reconstruction-Generation Trade-off

2026년 5월 21일

[논문리뷰] End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

본 논문은 기존의 2단계 학습 방식이 토크나이저와 생성 모델 간의 비정렬 문제를 야기하여 최종 생성 품질을 제한한다는 점을 해결하고자 한다.

#Review #Autoregressive Image Generation #1D Vision Tokenizer #End-to-End Training #Semantic Alignment #Vision Foundation Models

2026년 5월 3일

[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

본 논문은 기존의 Zero-Shot 이상 탐지 연구가 VLM (Vision-Language Models)에 의존하는 경향이 있어, 시각적 표현력이 뛰어난 순수 VFM 의 잠재력을 충분히 활용하지 못한다는 점을 문제로 지적합니다.

#Review #Zero-Shot Anomaly Detection #Vision Foundation Models #Synthetic Data Generation #LoRA #Confidence-Weighted Loss

2026년 4월 9일

[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .

#Review #Generative World Modeling #Delta Tokens #Visual Tokenization #Vision Foundation Models #Best-of-Many Training #Spatio-temporal Redundancy #Efficient Inference

2026년 4월 8일

[논문리뷰] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

본 논문은 비디오 내에서 극심한 시점 변화(egocentric-to-exocentric 및 exocentric-to-egocentric) 에도 불구하고 객체 수준의 시각적 대응(object-level visual correspondence)을 확립하는 문제를 해결하는 것을 목표로 합니다.

#Review #Cross-View Correspondence #Object Segmentation #Cycle-Consistency #Test-Time Training #Vision Foundation Models #Self-Supervision #Egocentric-Exocentric

2026년 2월 23일

[논문리뷰] DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

본 연구는 사전 훈련된 Vision Foundation Model (VFM) 기반의 생성형 오토인코더가 겪는 낮은 재구성 충실도(fidelity) 문제를 해결하고, 동시에 효율적인 이미지 생성 능력을 유지하는 것을 목표로 합니다.

#Review #Autoencoder #DINO #Vision Foundation Models #Image Generation #Image Reconstruction #Spherical Manifold #Diffusion Models #Flow Matching

2026년 2월 1일

[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation Alignment

Latent Diffusion Models (LDMs)의 핵심 구성 요소인 Variational Autoencoders (VAEs)가 기존처럼 픽셀 단위 재구성에만 초점을 맞추거나, LDM과 동일한 상위 수준의 의미론적 정렬 대상을 사용하는 한계를 지적합니다.

#Review #Latent Diffusion Models #Variational Autoencoders #Disentangled Representations #Vision Foundation Models #Representation Alignment #Image Generation #Semantic Disentanglement

2026년 1월 12일

[논문리뷰] Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

본 논문은 원격 탐사(RS) 이미지의 시맨틱 분할에서 의사 레이블(pseudo-label) 드리프트 와 확증 편향 으로 인한 오류 축적 문제를 해결하고, 고비용의 픽셀 단위 주석 의존도를 낮추는 것을 목표로 합니다.

#Review #Semi-Supervised Learning #Semantic Segmentation #Remote Sensing #Vision Foundation Models #Pseudo-Label Drift #Co-Guidance #Feature Fusion

2026년 1월 5일

[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.

#Review #Latent Diffusion Models #Vision Foundation Models #Semantic Compression #Global-Local Semantics #Image Generation #Representation Entanglement #Transformer Architecture

2025년 12월 18일

[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?

의료 영상 분할에서 Vision Foundation Models (FMs) 의 효과적인 적용을 저해하는 두 가지 핵심 과제, 즉 ViT 백본 이 특수화된 CNN 보다 낮은 성능을 보이는 문제와 자연 이미지와 의료 이미지 간의 큰 도메인 격차 를 해결하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Vision Foundation Models #Self-supervised Learning #Vision Transformers (ViT)#Domain Adaptation #DINOv3 #CT Imaging

2025년 9월 3일