#Camera Pose Estimation

10개의 포스트

[논문리뷰] VLM3: Vision Language Models Are Native 3D Learners

본 논문은 표준 VLM이 복잡한 전용 설계 없이도 3D 이해를 수행할 수 있음을 증명하기 위해 수행되었다.

#Review #Vision Language Models #3D Understanding #Metric Depth Estimation #Pixel Correspondence #Camera Pose Estimation #Focal Length Unification #Scalable Training

2026년 5월 31일

[논문리뷰] Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction

본 논문은 Degraded Input Condition 하에서 Multi-view 3D Reconstruction의 Robustness를 향상시키기 위해 Geometry-Aware Representation Denoising (GARD) 프레임워크를 제안한다.

#Review #Multi-view 3D Reconstruction #Image Restoration #Representation Denoising #Diffusion Models #Geometry-Aware Features #Feed-Forward Models #Camera Pose Estimation

2026년 5월 26일

[논문리뷰] 360Anything: Geometry-Free Lifting of Images and Videos to 360°

본 논문은 기존의 카메라 메타데이터(FoV, 자세)에 의존하는 한계를 극복하고, 단일 시점의 이미지 및 비디오를 360° 파노라마 로 변환하는 견고하고 기하학적 제약이 없는(geometry-free) 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Panorama Generation #Diffusion Transformers #Geometry-Free Learning #Latent Encoding #Seam Artifacts #Camera Pose Estimation #Video Outpainting

2026년 1월 22일

[논문리뷰] EgoX: Egocentric Video Generation from a Single Exocentric Video

본 연구는 단일 외부 시점(exocentric) 비디오 입력으로부터 사실적이고 일관성 있는 내부 시점(egocentric) 비디오를 생성하는 것을 목표로 합니다.

#Review #Egocentric Video Generation #Exocentric-to-Egocentric #Video Diffusion Models #3D Scene Reconstruction #Geometry-Guided Attention #View Synthesis #Camera Pose Estimation #LoRA Adaptation

2025년 12월 14일

[논문리뷰] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

기존 단안 3D 트래킹 방법론의 한계인 카메라 움직임과 전경 동적 객체 움직임의 분리 미흡 및 새롭게 출현하는 동적 객체의 밀집 트래킹 불가 문제를 해결하는 것입니다.

#Review #Monocular 3D Tracking #World-centric Coordinates #Dense Tracking #Camera Pose Estimation #Dynamic Object Tracking #Optimization #2D Track Upsampling

2025년 12월 9일

[논문리뷰] Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences

본 연구는 노이즈가 있는 카메라 움직임과 시맨틱 세그멘테이션 시퀀스로부터 원거리 객체의 3D 위치를 찾는 문제를 해결하는 것을 목표로 합니다. 특히, 드론 기반 산불 모니터링과 같이 컴퓨팅 자원이 제한적이거나 객체가 멀리 떨어져 있는 시나리오에서 기존의 3D 재구성 또는 깊이 추정 방법의 한계를 극복하고자 합니다.

#Review #3D Object Localization #Particle Filter #Multi-target Tracking #Drone Surveillance #Wildfire Monitoring #Semantic Segmentation #Camera Pose Estimation

2025년 9월 29일

[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.

#Review #Video Dataset #Spatial Annotation #Camera Pose Estimation #Depth Map #Structured Caption #Motion Instruction #3D Vision #World Modeling

2025년 9월 12일

[논문리뷰] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

본 연구는 기존 온라인 3D 재구성 방법들이 겪는 재구성 품질과 실시간 성능 간의 절충 문제를 해결하고, 스트리밍 이미지로부터 정밀한 카메라 포즈와 고품질의 포인트 맵을 실시간으로 예측 하는 모델 WinT3R 를 제안하는 것을 목표로 합니다.

#Review #Online 3D Reconstruction #Camera Pose Estimation #Streaming Reconstruction #Sliding Window #Camera Token Pool #Real-time Performance #Computer Vision

2025년 9월 8일

[논문리뷰] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

본 논문은 불규칙한 카메라 움직임, 알 수 없는 카메라 자세, 방대한 장면 크기 등 일반적인 긴 비디오에서 발생하는 Novel View Synthesis (NVS)의 핵심 문제 를 해결하고자 합니다.

#Review #Novel View Synthesis #3D Gaussian Splatting #Unposed Reconstruction #Camera Pose Estimation #Incremental Optimization #Octree #Long Videos

2025년 8월 20일

[논문리뷰] G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

본 논문은 기존의 피드포워드(feed-forward) 3D 재구성 모델들이 RGB 이미지에만 의존하여 보조 데이터(깊이 맵, 카메라 내/외부 파라미터)를 활용하지 못하는 한계를 해결하고자 합니다.

#Review #3D Reconstruction #Deep Learning #Multi-Modal Fusion #Camera Pose Estimation #Depth Estimation #Transformer Networks #Prior Information

2025년 8월 19일