[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.#Review#Vision Foundation Models#Semantic Correspondence#Benchmark#Object-Centric Representation#Transfer Learning#Feature Extraction2026년 6월 1일댓글 수 로딩 중
[논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders본 논문은 RAE의 frozen VFM 인코더가 갖는 낮은 공간적 재구성 능력이 고품질 이미지 생성 및 세밀한 편집을 제한하는 문제를 해결하고자 합니다. 기존의 RAE 모델은 고수준의 의미론적 정보를 잘 유지하지만, VFM 학습 목적 상 색상이나 텍스처와 같은 저수준 세부 정보가 누락되는 경향이 있습니다 .#Review#Representation Autoencoders#Vision Foundation Models#Detail-Condensing Queries#Latent Diffusion Models#Image Tokenizer#Reconstruction-Generation Trade-off2026년 5월 21일댓글 수 로딩 중
[논문리뷰] End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer본 논문은 기존의 2단계 학습 방식이 토크나이저와 생성 모델 간의 비정렬 문제를 야기하여 최종 생성 품질을 제한한다는 점을 해결하고자 한다.#Review#Autoregressive Image Generation#1D Vision Tokenizer#End-to-End Training#Semantic Alignment#Vision Foundation Models2026년 5월 3일댓글 수 로딩 중
[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors본 논문은 기존의 Zero-Shot 이상 탐지 연구가 VLM (Vision-Language Models)에 의존하는 경향이 있어, 시각적 표현력이 뛰어난 순수 VFM 의 잠재력을 충분히 활용하지 못한다는 점을 문제로 지적합니다.#Review#Zero-Shot Anomaly Detection#Vision Foundation Models#Synthetic Data Generation#LoRA#Confidence-Weighted Loss2026년 4월 9일댓글 수 로딩 중
[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .#Review#Generative World Modeling#Delta Tokens#Visual Tokenization#Vision Foundation Models#Best-of-Many Training#Spatio-temporal Redundancy#Efficient Inference2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction본 논문은 비디오 내에서 극심한 시점 변화(egocentric-to-exocentric 및 exocentric-to-egocentric) 에도 불구하고 객체 수준의 시각적 대응(object-level visual correspondence)을 확립하는 문제를 해결하는 것을 목표로 합니다.#Review#Cross-View Correspondence#Object Segmentation#Cycle-Consistency#Test-Time Training#Vision Foundation Models#Self-Supervision#Egocentric-Exocentric2026년 2월 23일댓글 수 로딩 중
[논문리뷰] DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation본 연구는 사전 훈련된 Vision Foundation Model (VFM) 기반의 생성형 오토인코더가 겪는 낮은 재구성 충실도(fidelity) 문제를 해결하고, 동시에 효율적인 이미지 생성 능력을 유지하는 것을 목표로 합니다.#Review#Autoencoder#DINO#Vision Foundation Models#Image Generation#Image Reconstruction#Spherical Manifold#Diffusion Models#Flow Matching2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation AlignmentLatent Diffusion Models (LDMs)의 핵심 구성 요소인 Variational Autoencoders (VAEs)가 기존처럼 픽셀 단위 재구성에만 초점을 맞추거나, LDM과 동일한 상위 수준의 의미론적 정렬 대상을 사용하는 한계를 지적합니다.#Review#Latent Diffusion Models#Variational Autoencoders#Disentangled Representations#Vision Foundation Models#Representation Alignment#Image Generation#Semantic Disentanglement2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion본 논문은 원격 탐사(RS) 이미지의 시맨틱 분할에서 의사 레이블(pseudo-label) 드리프트 와 확증 편향 으로 인한 오류 축적 문제를 해결하고, 고비용의 픽셀 단위 주석 의존도를 낮추는 것을 목표로 합니다.#Review#Semi-Supervised Learning#Semantic Segmentation#Remote Sensing#Vision Foundation Models#Pseudo-Label Drift#Co-Guidance#Feature Fusion2026년 1월 5일댓글 수 로딩 중
[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.#Review#Latent Diffusion Models#Vision Foundation Models#Semantic Compression#Global-Local Semantics#Image Generation#Representation Entanglement#Transformer Architecture2025년 12월 18일댓글 수 로딩 중
[논문리뷰] MedDINOv3: How to adapt vision foundation models for medical image segmentation?의료 영상 분할에서 Vision Foundation Models (FMs) 의 효과적인 적용을 저해하는 두 가지 핵심 과제, 즉 ViT 백본 이 특수화된 CNN 보다 낮은 성능을 보이는 문제와 자연 이미지와 의료 이미지 간의 큰 도메인 격차 를 해결하는 것을 목표로 합니다.#Review#Medical Image Segmentation#Vision Foundation Models#Self-supervised Learning#Vision Transformers (ViT)#Domain Adaptation#DINOv3#CT Imaging2025년 9월 3일댓글 수 로딩 중