#Unified Representation

2개의 포스트

[논문리뷰] 3D Aware Region Prompted Vision Language Model

본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.

#Review #3D Vision #Vision-Language Models #Spatial Reasoning #Region Prompting #Multi-view Learning #Depth Estimation #Unified Representation #Generative AI

2025년 9월 17일

[논문리뷰] Latent Diffusion Model without Variational Autoencoder

기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.

#Review #Latent Diffusion Model #Variational Autoencoder #Self-supervised Learning #DINO Features #Generative Models #Image Generation #Training Efficiency #Unified Representation

2025년 10월 20일