#Visual Foundation Model

1개의 포스트

[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.

#Review #Text-to-Image Generation #Latent Diffusion Model #Visual Foundation Model #DINOv3 #Flow Matching #High-Resolution Synthesis #VAE-free Generation

2025년 12월 14일