#DINOv2

4개의 포스트

[논문리뷰] PixCon: Clean-Positive Contrastive Learning for Foundation-Model Semi-Supervised Segmentation

기존의 SSSS 연구들은 주로 Pseudo-label의 신뢰성을 판단하기 위한 confidence filtering 전략에 의존해 왔습니다. 그러나 DINOv2와 같은 강력한 foundation-model backbone이 등장하면서, 단순히 threshold를 높이는 것만으로는 성능 향상에 한계가 있음이 드러났습니다.

#Review #Semi-supervised Semantic Segmentation #Foundation Models #Contrastive Learning #Pseudo-labeling #DINOv2 #Embedding Space #Consistency Regularization

2026년 7월 6일

[논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

본 논문은 기존 픽셀 확산 모델이 고차원 픽셀 공간의 지각적으로 중요하지 않은 신호를 학습하는 데 어려움을 겪어 잠재 확산 모델보다 성능이 뒤처지는 문제를 해결하고자 합니다.

#Review #Pixel Diffusion #Perceptual Loss #Latent Diffusion #Image Generation #LPIPS #DINOv2 #x-prediction #End-to-End Generation

2026년 2월 2일

[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.

#Review #Text-to-Image Generation #Image Editing #Representation Encoders #Latent Diffusion Models #Variational Autoencoder (VAE)#Semantic Reconstruction #Off-manifold Latents #DINOv2

2025년 12월 21일

[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

본 논문은 기존의 이미지 전체 기반(image-centric) 제로샷 캡셔닝 모델이 지역 단위 캡셔닝에서 낮은 성능을 보이는 문제를 해결하고자 합니다.

#Review #Zero-Shot Captioning #Region-Level Captioning #Vision Transformers #DINOv2 #Patch-Centric #Modality Gap Mitigation #Visual-Language Models

2025년 10월 13일