[논문리뷰] From Pixels to Words -- Towards Native One-Vision Models at Scale본 논문은 기존의 modular VLM이 가진 복잡한 파이프라인과 파편화된 visual-language 정보를 해결하기 위해 단일화된 Native one-vision 아키텍처를 제안한다.#Review#Native Vision-Language Models#Monolithic Backbone#Spatiotemporal Attention#One-Vision Foundation Model#End-to-End Learning#Spatial Intelligence2026년 5월 27일댓글 수 로딩 중
[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.#Review#4D Shape Generation#Video-conditioned#Dynamic 3D Meshes#Latent Diffusion Model#Spatiotemporal Attention#Temporal Consistency#Pre-trained 3D Models#VAE2025년 10월 8일댓글 수 로딩 중