[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.#Review#Text-to-Image Generation#Latent Diffusion Model#Visual Foundation Model#DINOv3#Flow Matching#High-Resolution Synthesis#VAE-free Generation2025년 12월 14일댓글 수 로딩 중