#Latent Diffusion Models

18개의 포스트

[논문리뷰] FedOT: Ownership Verification and Leakage Tracing via Watermarks for Federated LDMs

본 논문은 Federated Learning 환경에서 학습된 LDMs의 모델 소유권 보호와 유출 경로 추적 문제를 해결하기 위해 제안되었습니다 . 기존의 연구들은 주로 분류 모델에 집중되어 있어 복잡한 생성 모델인 LDMs에 직접 적용하기 어렵습니다.

#Review #Federated Learning #Latent Diffusion Models #Watermarking #Ownership Verification #Leakage Tracing #Latent Vector Transformation

2026년 6월 23일

[논문리뷰] PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion

본 연구는 기존 Latent Diffusion Models(LDMs)에서 사용되는 재구성 기반(reconstruction-oriented) 디코더가 고해상도 생성 시 발생하는 정보 손실과 연산 효율성 저하 문제를 해결하고자 합니다.

#Review #Latent Diffusion Models #Pixel Diffusion #Latent Decoding #Super-Resolution #Generative Decoding #Distillation

2026년 5월 24일

[논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

본 논문은 RAE의 frozen VFM 인코더가 갖는 낮은 공간적 재구성 능력이 고품질 이미지 생성 및 세밀한 편집을 제한하는 문제를 해결하고자 합니다. 기존의 RAE 모델은 고수준의 의미론적 정보를 잘 유지하지만, VFM 학습 목적 상 색상이나 텍스처와 같은 저수준 세부 정보가 누락되는 경향이 있습니다 .

#Review #Representation Autoencoders #Vision Foundation Models #Detail-Condensing Queries #Latent Diffusion Models #Image Tokenizer #Reconstruction-Generation Trade-off

2026년 5월 21일

[논문리뷰] CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

본 연구는 기존 비디오 생성 모델들이 사용자의 창의적 의도를 정확히 해석하지 못하고, 제어 가능성(Controllability)이 제한적이라는 문제 해결을 목표로 합니다. 기존 모델들은 단순한 텍스트-비디오 매핑에 의존하여 복잡한 물리적 제약이나 구체적인 카메라 움직임을 구현하는 데 한계를 보입니다.

#Review #Video Generation #Controllable Generation #Reasoning-Driven #Cognitive Intent #Multimodal Understanding #Latent Diffusion Models

2026년 5월 19일

[논문리뷰] What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

본 논문은 기존 Latent Diffusion Models(LDMs)의 tokenizer들이 주로 reconstruction fidelity에만 초점을 맞추어 설계되어, 정작 확산 생성 모델의 학습에 적합한 latent space를 형성하지 못한다는 문제를 제기합니다 .

#Review #Latent Diffusion Models #Tokenizer #Latent Manifold #Prior Alignment #Autoencoder #Generative Modeling #Representation Learning

2026년 5월 10일

[논문리뷰] Video Generation with Predictive Latents

본 논문은 기존 Video VAE가 단순히 비디오의 시각적 재구성 성능을 최적화하는 것만으로는 우수한 비디오 생성(Generative Performance)을 보장할 수 없다는 문제점을 해결하고자 한다.

#Review #Video Generation #Video VAE #Predictive Learning #Latent Diffusion Models #Temporal Dynamics #Motion Prior #Spatiotemporal Compression

2026년 5월 5일

[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.

#Review #Vision Transformer #Deep Compression #Autoencoder #Latent Diffusion Models #Token Scaling #Staged Token Compression #Self-Supervised Learning

2026년 4월 8일

[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID

변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #VAE #FID #Generative Models #Evaluation Metrics #Image Generation #Reconstruction-Generation Dilemma #Interpolation

2026년 3월 8일

[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.

#Review #2D Strokes #3D Model Generation #Rigged Meshes #Latent Diffusion Models #Skeleton Generation #Text-to-3D #Graph Neural Networks #Preference Optimization

2026년 2월 11일

[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation Alignment

Latent Diffusion Models (LDMs)의 핵심 구성 요소인 Variational Autoencoders (VAEs)가 기존처럼 픽셀 단위 재구성에만 초점을 맞추거나, LDM과 동일한 상위 수준의 의미론적 정렬 대상을 사용하는 한계를 지적합니다.

#Review #Latent Diffusion Models #Variational Autoencoders #Disentangled Representations #Vision Foundation Models #Representation Alignment #Image Generation #Semantic Disentanglement

2026년 1월 12일

[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.

#Review #Text-to-Image Generation #Image Editing #Representation Encoders #Latent Diffusion Models #Variational Autoencoder (VAE)#Semantic Reconstruction #Off-manifold Latents #DINOv2

2025년 12월 21일

[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.

#Review #Latent Diffusion Models #Vision Foundation Models #Semantic Compression #Global-Local Semantics #Image Generation #Representation Entanglement #Transformer Architecture

2025년 12월 18일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일

[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Asynchronous Denoising #Semantic Modeling #Texture Modeling #Image Generation #Vision Transformer #VAE #Fast Convergence

2025년 12월 4일

[논문리뷰] GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

본 논문은 기존 text-to-3D 스타일 변환 방법의 느린 최적화 시간과 멀티뷰 불일치 문제를 해결하여, 3D Gaussian Splatting (3DGS) 자산에 대한 즉각적이고 고품질의 기하학적 구조 보존 및 멀티뷰 일관성을 갖춘 스타일 변환 을 목표로 합니다.

#Review #3D Gaussian Splatting #Text-to-3D Stylization #Latent Diffusion Models #Disentangled Latent Spaces #Feed-forward Editing #Geometry Preservation #Multi-view Consistency

2025년 12월 4일

[논문리뷰] One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

본 논문은 기존 확산 모델이 고해상도 이미지를 직접 샘플링할 때 발생하는 속도 저하, 비용 증가, 아티팩트 발생 문제를 해결하고, 사후 픽셀 공간 초해상도(SR) 방식의 추가 지연 및 아티팩트를 극복하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Super-Resolution #Upscaling Adapter #Image Generation #Latent Space #Multi-scale Learning #Cross-VAE

2025년 11월 13일

[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.

#Review #Text-to-3D #Model Stitching #Multi-view Reconstruction #Video Generation #Latent Diffusion Models #Gaussian Splats #Pointmaps #Reward Finetuning

2025년 10월 17일

[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Multi-Modal Generation #Latent Diffusion Models #Cascaded Framework #Condition Injection #Text-to-Video #Video Editing #4K Video

2025년 10월 10일