[논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss본 논문은 기존 픽셀 확산 모델이 고차원 픽셀 공간의 지각적으로 중요하지 않은 신호를 학습하는 데 어려움을 겪어 잠재 확산 모델보다 성능이 뒤처지는 문제를 해결하고자 합니다.#Review#Pixel Diffusion#Perceptual Loss#Latent Diffusion#Image Generation#LPIPS#DINOv2#x-prediction#End-to-End Generation2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.#Review#Text-to-Image Generation#Image Editing#Representation Encoders#Latent Diffusion Models#Variational Autoencoder (VAE)#Semantic Reconstruction#Off-manifold Latents#DINOv22025년 12월 21일댓글 수 로딩 중
[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework본 논문은 기존의 이미지 전체 기반(image-centric) 제로샷 캡셔닝 모델이 지역 단위 캡셔닝에서 낮은 성능을 보이는 문제를 해결하고자 합니다.#Review#Zero-Shot Captioning#Region-Level Captioning#Vision Transformers#DINOv2#Patch-Centric#Modality Gap Mitigation#Visual-Language Models2025년 10월 13일댓글 수 로딩 중