[논문리뷰] 3D Aware Region Prompted Vision Language Model본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.#Review#3D Vision#Vision-Language Models#Spatial Reasoning#Region Prompting#Multi-view Learning#Depth Estimation#Unified Representation#Generative AI2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Latent Diffusion Model without Variational Autoencoder기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.#Review#Latent Diffusion Model#Variational Autoencoder#Self-supervised Learning#DINO Features#Generative Models#Image Generation#Training Efficiency#Unified Representation2025년 10월 20일댓글 수 로딩 중