[논문리뷰] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models본 논문은 기존의 고품질 Video Foundation Model을 실시간 상호작용이 가능한 Interactive World Model로 전환하는 파이프라인의 부재 문제를 해결합니다.#Review#Video World Models#Diffusion Models#Autoregressive#Distillation#Real-time Inference#Camera Control2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.#Review#Video Generation#Camera Control#History Conditioning#LoRA#Zero-shot Learning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.#Review#World Model#Diffusion Transformer#Long-context Modeling#Camera Control#6-DoF Trajectory#Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.#Review#World Model#Spatiotemporal Autoregressive#Diffusion Transformer#Camera Control#Distribution Matching Distillation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다.#Review#Video Generation#Diffusion Models#Synthetic Motion Data#Optical Flow#Camera Control2026년 4월 2일댓글 수 로딩 중
[논문리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories본 논문은 카메라 안내 비디오 생성 모델(VDMs)이 일관된 3D 장면을 재구성하는 데 겪는 한계, 특히 제한적인 카메라 제어 및 여러 시점에서의 내용 불일치 문제를 해결하는 것을 목표로 합니다.#Review#Video Generation#3D Reconstruction#Camera Control#Diffusion Models#Geometric Memory#Multi-View Consistency#World Model2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control본 논문은 기존 비디오 월드 모델이 가진 제한적인 제어 신호(텍스트 또는 키보드) 의 한계를 극복하고, 사용자의 머리 및 손 움직임 추적 데이터 를 활용하여 사람 중심의 인터랙티브 가상 환경 을 생성하는 것을 목표로 합니다.#Review#Video Generation#Extended Reality (XR)#Diffusion Models#Human-Computer Interaction#Hand Pose Estimation#Camera Control#World Simulation#Interactive AI2026년 2월 22일댓글 수 로딩 중
[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control본 논문은 기존 비디오 월드 모델들이 카메라 및 다중 객체 모션에 대한 통합적이고 정밀한 제어에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Video World Model#4D Geometric Control#Gaussian Trajectories#Video Generation#Diffusion Models#Camera Control#Object Motion Control#Data Engine2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Plenoptic Video Generation본 논문은 기존 카메라 제어형 비디오 재렌더링 방법들이 다중 뷰 시나리오에서 일관된 시공간적 일관성을 유지하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Generative Video#Camera Control#Plenoptic Function#Autoregressive Model#Diffusion Transformer#3D FOV Retrieval#Spatio-Temporal Consistency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time본 연구는 단일 모노큘러 비디오 로부터 동적 장면을 공간(카메라 시점)과 시간(모션 시퀀스)에 걸쳐 독립적으로 제어하며 생성적으로 렌더링하는 것을 목표로 합니다.#Review#Video Diffusion Model#Generative Rendering#Novel View Synthesis#Space-Time Disentanglement#Temporal Control#Camera Control#Dynamic Scenes#Temporal Warping2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Spatia: Video Generation with Updatable Spatial Memory기존 비디오 생성 모델들이 직면한 장기적인 공간 및 시간적 일관성 유지의 어려움 을 해결하는 것을 목표로 합니다. 이를 위해 업데이트 가능한 3D 장면 포인트 클라우드 를 영구적인 공간 메모리로 활용하는 프레임워크인 Spatia를 제안하여, 고차원 비디오 신호의 밀집된 특성으로 인한 한계를 극복하고자 합니다.#Review#Video Generation#Spatial Memory#3D Scene Point Cloud#Spatial Consistency#Camera Control#Interactive Editing#Diffusion Models#Visual SLAM2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation논문은 카메라 제어 가능한 동적 장면 비디오 생성에서 높은 카메라 포즈 충실도 와 뷰 일관성 을 유지하며, 가려진 기하학에 대해 추론하는 문제를 해결하는 것을 목표로 합니다. 특히, 기존의 깊이 재투영 기반 방법론의 부정확한 깊이 추정 오류와 궤적 조건부 모델의 데이터셋 편향 문제를 극복하고자 합니다.#Review#Video Generation#Camera Control#Homography#Diffusion Models#Data Augmentation#Novel View Synthesis#Pose Fidelity2025년 12월 22일댓글 수 로딩 중
[논문리뷰] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation본 연구는 자율 주행 환경에서 고품질의 카메라 제어 기반 신규 궤적 비디오 생성 문제를 해결하고자 합니다. 기존 복원(repair) 기반 방법들이 복잡한 아티팩트에 취약하고, LiDAR 기반 접근 방식이 데이터의 희소성과 불완전성으로 인해 기하학적 불일치를 겪는 한계를 극복하는 것이 목표입니다.#Review#Video Generation#Camera Control#Novel Trajectory#3D Gaussian Splatting (3DGS)#LiDAR-Free#Diffusion Models#Autonomous Driving#Scene Synthesis2025년 12월 8일댓글 수 로딩 중
[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.#Review#Music-Driven Video Generation#Diffusion Models#Multi-Stage Framework#Camera Control#Lip-Sync#Temporal Coherence#Video Diffusion Transformer2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation본 논문은 기존의 카메라 제어 비디오 생성 모델들이 겪는 장면 이해 및 기하학적 인식 부족 문제를 해결하여, 지정된 카메라 궤적에 더욱 충실하고 기하학적으로 일관된 비디오를 생성하는 것을 목표로 합니다. 특히 깊이(depth) 정보를 효과적으로 통합하여 카메라 제어 비디오 생성의 정확도를 높이는 데 중점을 둡니다.#Review#Diffusion Models#Video Generation#Camera Control#Depth Estimation#Dual-Branch Architecture#Geometric Awareness#Semantic Alignment#Multi-modal Fusion2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Captain Safari: A World Engine본 논문은 기존 비디오 세계 모델들이 겪는 장기적인 3D 일관성 부족, 공격적인 6-DoF 카메라 궤적 추적의 어려움, 복잡한 야외 환경 표현의 한계를 극복하는 것을 목표로 합니다.#Review#World Engine#3D Consistent Video Generation#Pose-conditioned Memory#Camera Control#FPV Video Synthesis#Diffusion Models#Drone Video Dataset2025년 11월 30일댓글 수 로딩 중
[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding본 연구는 기존 비디오 리테이크 생성 방법론이 가변 길이 입력, 동적 카메라 모션, 분포 외 카메라 궤적에 취약하며, 종종 워핑 아티팩트나 흐릿한 객체를 생성하는 한계를 해결하고자 합니다.#Review#Video Retake Generation#Camera Control#Rotary Position Embedding (RoPE)#Rotary Camera Encoding (RoCE)#Geometric Consistency#Video Generative Models#Transformer Architecture#Multi-view Synthesis2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.#Review#3D World Generation#Panoramic Video Generation#3D Reconstruction#Diffusion Models#Gaussian Splatting#Dataset#Camera Control2025년 8월 13일댓글 수 로딩 중
[논문리뷰] SViM3D: Stable Video Material Diffusion for Single Image 3D Generation본 논문은 단일 이미지로부터 다중 시점 일관성 있는 PBR(Physically Based Rendering) 재질(알베도, 러프니스, 메탈릭, 표면 노멀) 을 예측하는 프레임워크를 제시하며, 이는 단일 이미지 기반 역렌더링 의 고질적인 난제를 해결하고자 합니다.#Review#Single Image 3D Reconstruction#Material Prediction#Video Diffusion Models#Physically Based Rendering (PBR)#Inverse Rendering#Novel View Synthesis#Camera Control#Latent Diffusion2025년 10월 10일댓글 수 로딩 중