[논문리뷰] PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion본 연구는 기존 Latent Diffusion Models(LDMs)에서 사용되는 재구성 기반(reconstruction-oriented) 디코더가 고해상도 생성 시 발생하는 정보 손실과 연산 효율성 저하 문제를 해결하고자 합니다.#Review#Latent Diffusion Models#Pixel Diffusion#Latent Decoding#Super-Resolution#Generative Decoding#Distillation2026년 5월 24일댓글 수 로딩 중
[논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders본 논문은 RAE의 frozen VFM 인코더가 갖는 낮은 공간적 재구성 능력이 고품질 이미지 생성 및 세밀한 편집을 제한하는 문제를 해결하고자 합니다. 기존의 RAE 모델은 고수준의 의미론적 정보를 잘 유지하지만, VFM 학습 목적 상 색상이나 텍스처와 같은 저수준 세부 정보가 누락되는 경향이 있습니다 .#Review#Representation Autoencoders#Vision Foundation Models#Detail-Condensing Queries#Latent Diffusion Models#Image Tokenizer#Reconstruction-Generation Trade-off2026년 5월 21일댓글 수 로딩 중
[논문리뷰] CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition본 연구는 기존 비디오 생성 모델들이 사용자의 창의적 의도를 정확히 해석하지 못하고, 제어 가능성(Controllability)이 제한적이라는 문제 해결을 목표로 합니다. 기존 모델들은 단순한 텍스트-비디오 매핑에 의존하여 복잡한 물리적 제약이나 구체적인 카메라 움직임을 구현하는 데 한계를 보입니다.#Review#Video Generation#Controllable Generation#Reasoning-Driven#Cognitive Intent#Multimodal Understanding#Latent Diffusion Models2026년 5월 19일댓글 수 로딩 중
[논문리뷰] What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion본 논문은 기존 Latent Diffusion Models(LDMs)의 tokenizer들이 주로 reconstruction fidelity에만 초점을 맞추어 설계되어, 정작 확산 생성 모델의 학습에 적합한 latent space를 형성하지 못한다는 문제를 제기합니다 .#Review#Latent Diffusion Models#Tokenizer#Latent Manifold#Prior Alignment#Autoencoder#Generative Modeling#Representation Learning2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Video Generation with Predictive Latents본 논문은 기존 Video VAE가 단순히 비디오의 시각적 재구성 성능을 최적화하는 것만으로는 우수한 비디오 생성(Generative Performance)을 보장할 수 없다는 문제점을 해결하고자 한다.#Review#Video Generation#Video VAE#Predictive Learning#Latent Diffusion Models#Temporal Dynamics#Motion Prior#Spatiotemporal Compression2026년 5월 5일댓글 수 로딩 중
[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.#Review#Vision Transformer#Deep Compression#Autoencoder#Latent Diffusion Models#Token Scaling#Staged Token Compression#Self-Supervised Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.#Review#Latent Diffusion Models#VAE#FID#Generative Models#Evaluation Metrics#Image Generation#Reconstruction-Generation Dilemma#Interpolation2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models애니메이션 가능한 3D 지오메트리 생성의 어려움과 골격 생성에 대한 세밀한 구조적 제어 부족이라는 기존 3D 생성 방법론의 한계를 해결합니다.#Review#2D Strokes#3D Model Generation#Rigged Meshes#Latent Diffusion Models#Skeleton Generation#Text-to-3D#Graph Neural Networks#Preference Optimization2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation AlignmentLatent Diffusion Models (LDMs)의 핵심 구성 요소인 Variational Autoencoders (VAEs)가 기존처럼 픽셀 단위 재구성에만 초점을 맞추거나, LDM과 동일한 상위 수준의 의미론적 정렬 대상을 사용하는 한계를 지적합니다.#Review#Latent Diffusion Models#Variational Autoencoders#Disentangled Representations#Vision Foundation Models#Representation Alignment#Image Generation#Semantic Disentanglement2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.#Review#Text-to-Image Generation#Image Editing#Representation Encoders#Latent Diffusion Models#Variational Autoencoder (VAE)#Semantic Reconstruction#Off-manifold Latents#DINOv22025년 12월 21일댓글 수 로딩 중
[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.#Review#Latent Diffusion Models#Vision Foundation Models#Semantic Compression#Global-Local Semantics#Image Generation#Representation Entanglement#Transformer Architecture2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.#Review#Visual Tokenizers#Pre-training#Latent Diffusion Models#Generative Models#Vision Transformer#Contrastive Learning#Self-Supervised Learning#Scaling Laws2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.#Review#Latent Diffusion Models#Asynchronous Denoising#Semantic Modeling#Texture Modeling#Image Generation#Vision Transformer#VAE#Fast Convergence2025년 12월 4일댓글 수 로딩 중
[논문리뷰] GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces본 논문은 기존 text-to-3D 스타일 변환 방법의 느린 최적화 시간과 멀티뷰 불일치 문제를 해결하여, 3D Gaussian Splatting (3DGS) 자산에 대한 즉각적이고 고품질의 기하학적 구조 보존 및 멀티뷰 일관성을 갖춘 스타일 변환 을 목표로 합니다.#Review#3D Gaussian Splatting#Text-to-3D Stylization#Latent Diffusion Models#Disentangled Latent Spaces#Feed-forward Editing#Geometry Preservation#Multi-view Consistency2025년 12월 4일댓글 수 로딩 중
[논문리뷰] One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models본 논문은 기존 확산 모델이 고해상도 이미지를 직접 샘플링할 때 발생하는 속도 저하, 비용 증가, 아티팩트 발생 문제를 해결하고, 사후 픽셀 공간 초해상도(SR) 방식의 추가 지연 및 아티팩트를 극복하는 것을 목표로 합니다.#Review#Latent Diffusion Models#Super-Resolution#Upscaling Adapter#Image Generation#Latent Space#Multi-scale Learning#Cross-VAE2025년 11월 13일댓글 수 로딩 중
[논문리뷰] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator본 논문은 기존 텍스트-투-3D(Text-to-3D) 모델의 느린 최적화 및 오류 축적 문제를 해결하기 위해, 강력한 텍스트-투-비디오(text-to-video) 생성 모델 과 3D 재구성 네트워크 를 결합하는 새로운 프레임워크 VIST3A 를 제안합니다.#Review#Text-to-3D#Model Stitching#Multi-view Reconstruction#Video Generation#Latent Diffusion Models#Gaussian Splats#Pointmaps#Reward Finetuning2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.#Review#Video Super-Resolution#Multi-Modal Generation#Latent Diffusion Models#Cascaded Framework#Condition Injection#Text-to-Video#Video Editing#4K Video2025년 10월 10일댓글 수 로딩 중