#Camera Control

19개의 포스트

[논문리뷰] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

본 논문은 기존의 고품질 Video Foundation Model을 실시간 상호작용이 가능한 Interactive World Model로 전환하는 파이프라인의 부재 문제를 해결합니다.

#Review #Video World Models #Diffusion Models #Autoregressive #Distillation #Real-time Inference #Camera Control

2026년 5월 28일

[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.

#Review #Video Generation #Camera Control #History Conditioning #LoRA #Zero-shot Learning

2026년 5월 14일

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.

#Review #World Model #Diffusion Transformer #Long-context Modeling #Camera Control #6-DoF Trajectory #Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #World Model #Spatiotemporal Autoregressive #Diffusion Transformer #Camera Control #Distribution Matching Distillation

2026년 4월 8일

[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Video Generation #Diffusion Models #Synthetic Motion Data #Optical Flow #Camera Control

2026년 4월 2일

[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #3D Reconstruction #Camera Control #Diffusion Models #Geometric Memory #Multi-View Consistency #World Model

2026년 3월 2일

[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

본 논문은 기존 비디오 월드 모델이 가진 제한적인 제어 신호(텍스트 또는 키보드) 의 한계를 극복하고, 사용자의 머리 및 손 움직임 추적 데이터 를 활용하여 사람 중심의 인터랙티브 가상 환경 을 생성하는 것을 목표로 합니다.

#Review #Video Generation #Extended Reality (XR)#Diffusion Models #Human-Computer Interaction #Hand Pose Estimation #Camera Control #World Simulation #Interactive AI

2026년 2월 22일

[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

본 논문은 기존 비디오 월드 모델들이 카메라 및 다중 객체 모션에 대한 통합적이고 정밀한 제어에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Video World Model #4D Geometric Control #Gaussian Trajectories #Video Generation #Diffusion Models #Camera Control #Object Motion Control #Data Engine

2026년 1월 8일

[논문리뷰] Plenoptic Video Generation

본 논문은 기존 카메라 제어형 비디오 재렌더링 방법들이 다중 뷰 시나리오에서 일관된 시공간적 일관성을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video #Camera Control #Plenoptic Function #Autoregressive Model #Diffusion Transformer #3D FOV Retrieval #Spatio-Temporal Consistency

2026년 1월 8일

[논문리뷰] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

본 연구는 단일 모노큘러 비디오 로부터 동적 장면을 공간(카메라 시점)과 시간(모션 시퀀스)에 걸쳐 독립적으로 제어하며 생성적으로 렌더링하는 것을 목표로 합니다.

#Review #Video Diffusion Model #Generative Rendering #Novel View Synthesis #Space-Time Disentanglement #Temporal Control #Camera Control #Dynamic Scenes #Temporal Warping

2025년 12월 31일

[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory

기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.

#Review #Video Generation #Spatial Memory #3D Scene Point Cloud #Spatial Consistency #Camera Control #Interactive Editing #Diffusion Models #Visual SLAM

2025년 12월 25일

[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

논문은 카메라 제어 가능한 동적 장면 비디오 생성에서 높은 카메라 포즈 충실도 와 뷰 일관성 을 유지하며, 가려진 기하학에 대해 추론하는 문제를 해결하는 것을 목표로 합니다. 특히, 기존의 깊이 재투영 기반 방법론의 부정확한 깊이 추정 오류와 궤적 조건부 모델의 데이터셋 편향 문제를 극복하고자 합니다.

#Review #Video Generation #Camera Control #Homography #Diffusion Models #Data Augmentation #Novel View Synthesis #Pose Fidelity

2025년 12월 22일

[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.

#Review #Video Generation #Camera Control #Novel Trajectory #3D Gaussian Splatting (3DGS)#LiDAR-Free #Diffusion Models #Autonomous Driving #Scene Synthesis

2025년 12월 8일

[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation

본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.

#Review #Music-Driven Video Generation #Diffusion Models #Multi-Stage Framework #Camera Control #Lip-Sync #Temporal Coherence #Video Diffusion Transformer

2025년 12월 2일

[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

본 논문은 기존의 카메라 제어 비디오 생성 모델들이 겪는 장면 이해 및 기하학적 인식 부족 문제를 해결하여, 지정된 카메라 궤적에 더욱 충실하고 기하학적으로 일관된 비디오를 생성하는 것을 목표로 합니다. 특히 깊이(depth) 정보를 효과적으로 통합하여 카메라 제어 비디오 생성의 정확도를 높이는 데 중점을 둡니다.

#Review #Diffusion Models #Video Generation #Camera Control #Depth Estimation #Dual-Branch Architecture #Geometric Awareness #Semantic Alignment #Multi-modal Fusion

2025년 12월 2일

[논문리뷰] Captain Safari: A World Engine

본 논문은 기존 비디오 세계 모델들이 겪는 장기적인 3D 일관성 부족, 공격적인 6-DoF 카메라 궤적 추적의 어려움, 복잡한 야외 환경 표현의 한계를 극복하는 것을 목표로 합니다.

#Review #World Engine #3D Consistent Video Generation #Pose-conditioned Memory #Camera Control #FPV Video Synthesis #Diffusion Models #Drone Video Dataset

2025년 11월 30일

[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

본 연구는 기존 비디오 리테이크 생성 방법론이 가변 길이 입력, 동적 카메라 모션, 분포 외 카메라 궤적에 취약하며, 종종 워핑 아티팩트나 흐릿한 객체를 생성하는 한계를 해결하고자 합니다.

#Review #Video Retake Generation #Camera Control #Rotary Position Embedding (RoPE)#Rotary Camera Encoding (RoCE)#Geometric Consistency #Video Generative Models #Transformer Architecture #Multi-view Synthesis

2025년 11월 25일

[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation

본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.

#Review #3D World Generation #Panoramic Video Generation #3D Reconstruction #Diffusion Models #Gaussian Splatting #Dataset #Camera Control

2025년 8월 13일

[논문리뷰] SViM3D: Stable Video Material Diffusion for Single Image 3D Generation

본 논문은 단일 이미지로부터 다중 시점 일관성 있는 PBR(Physically Based Rendering) 재질(알베도, 러프니스, 메탈릭, 표면 노멀) 을 예측하는 프레임워크를 제시하며, 이는 단일 이미지 기반 역렌더링 의 고질적인 난제를 해결하고자 합니다.

#Review #Single Image 3D Reconstruction #Material Prediction #Video Diffusion Models #Physically Based Rendering (PBR)#Inverse Rendering #Novel View Synthesis #Camera Control #Latent Diffusion

2025년 10월 10일