#Spatiotemporal Attention

2개의 포스트

[논문리뷰] From Pixels to Words -- Towards Native One-Vision Models at Scale

본 논문은 기존의 modular VLM이 가진 복잡한 파이프라인과 파편화된 visual-language 정보를 해결하기 위해 단일화된 Native one-vision 아키텍처를 제안한다.

#Review #Native Vision-Language Models #Monolithic Backbone #Spatiotemporal Attention #One-Vision Foundation Model #End-to-End Learning #Spatial Intelligence

2026년 5월 27일

[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.

#Review #4D Shape Generation #Video-conditioned #Dynamic 3D Meshes #Latent Diffusion Model #Spatiotemporal Attention #Temporal Consistency #Pre-trained 3D Models #VAE

2025년 10월 8일