[논문리뷰] Woosh: A Sound Effects Foundation Model본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.#Review#Foundation Model#Sound Effects#Latent Diffusion Model#Flow Matching#Audio-Visual Generation#Distillation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.#Review#Text-to-Image Generation#Latent Diffusion Model#Visual Foundation Model#DINOv3#Flow Matching#High-Resolution Synthesis#VAE-free Generation2025년 12월 14일댓글 수 로딩 중
[논문리뷰] NaTex: Seamless Texture Generation as Latent Color Diffusion본 논문은 기존 Multi-View Diffusion (MVD) 모델의 텍스처 생성 시 발생하는 occlusion 처리 미흡, 정밀한 메시-텍스처 정렬 난이도, 크로스-뷰 일관성 문제와 같은 한계를 해결하고자 합니다.#Review#3D Texture Generation#Latent Diffusion Model#Geometry-Aware VAE#Multi-Control DiT#Color Point Cloud#Texture Synthesis#3D Asset Creation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.#Review#4D Shape Generation#Video-conditioned#Dynamic 3D Meshes#Latent Diffusion Model#Spatiotemporal Attention#Temporal Consistency#Pre-trained 3D Models#VAE2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Latent Diffusion Model without Variational Autoencoder기존 잠재 확산 모델(LDM)이 VAE(Variational Autoencoder) 의 한계로 인해 훈련 비효율성, 느린 추론 속도, 낮은 전이 학습 능력을 보이는 문제를 해결하고자 합니다.#Review#Latent Diffusion Model#Variational Autoencoder#Self-supervised Learning#DINO Features#Generative Models#Image Generation#Training Efficiency#Unified Representation2025년 10월 20일댓글 수 로딩 중