#Temporal Consistency

39개의 포스트

[논문리뷰] Surflo: Consistent 3D Surface Flow Model with Global State

본 연구는 기존의 3D Scene Flow 추정 방식이 가지는 프레임 간의 기하학적 불일치 문제를 해결하는 것을 목표로 합니다. 기존 모델들은 주로 독립적인 프레임 페어 간의 대응 관계를 찾는 데 집중하여, 연속적인 시간 흐름 속에서 누적 오차가 발생하거나 장면의 표면 구조를 왜곡시키는 한계가 있습니다.

#Review #3D Scene Flow #Surface Flow #Global State #Point Cloud #Temporal Consistency

2026년 6월 11일

[논문리뷰] FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion

본 논문은 Autoregressive Video Diffusion 모델에서 장기 문맥(Long-term context) 유지가 어려워 발생하는 비디오의 시간적 붕괴 문제를 해결합니다.

#Review #Video Diffusion Models #Memory Consolidation #Autoregressive Generation #Temporal Consistency #Long-term Dependency

2026년 6월 9일

[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 .

#Review #Long Video Generation #Autoregressive #Retrieval-Augmented Generation #Video Diffusion #Temporal Consistency #Attention

2026년 6월 1일

[논문리뷰] Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

본 논문은 Foundation video generation 모델을 활용하여 학습 없이 무한한 길이의 영상을 일관성 있게 생성하는 것을 목표로 합니다.

#Review #Long Video Generation #Train-Free #Autoregressive Generation #Consistency Enhancement #Diffusion Models #Test-Time Scaling #Temporal Consistency

2026년 5월 20일

[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.

#Review #Human Video Generation #Image-First Synthesis #Flow Matching #Temporal Consistency #SMPL-X #Diffusion Transformer

2026년 4월 22일

[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

최근 autoregressive video diffusion models 는 상당한 발전을 이루었지만, 장시간 비디오 생성 시 발생하는 몇 가지 주요 제약 사항들에 직면해 있다.

#Review #Autoregressive Video Generation #KV Cache Management #Long Context Inference #Video Diffusion Models #Temporal Consistency #Spatiotemporal Compression #RoPE Adjustment #Dynamic Context Selection

2026년 3월 29일

[논문리뷰] RealMaster: Lifting Rendered Scenes into Photorealistic Video

최신 비디오 생성 모델들은 뛰어난 실사 이미지(photorealism)를 만들어내지만, 특정 장면 요구사항에 맞춰 생성된 콘텐츠를 정밀하게 제어하는 데는 한계가 있습니다. 또한, 명시적인 기하학적 구조(explicit geometry)가 없기 때문에 3D 일관성(3D consistency)을 보장하기 어렵습니다.

#Review #Sim-to-Real Translation #Photorealistic Video Generation #Video Diffusion Models #Structural Precision #Global Semantic Transformation #IC-LoRA #Temporal Consistency

2026년 3월 24일

[논문리뷰] Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Distilled autoregressive (AR) video models는 efficient streaming generation을 가능하게 하지만, 종종 human visual preferences와 misalign되어 artifacts나 unnatural motion dynamics를 보입니다.

#Review #Video Generation #Distilled Autoregressive Models #Reinforcement Learning (RL)#Human Preferences #Streaming Generation #Forward-Process RL #Reward Hacking #Temporal Consistency

2026년 3월 22일

[논문리뷰] SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

현재 instruction-guided video editing models은 fine-grained semantic modifications와 faithful motion preservation 간의 균형을 맞추는 데 어려움을 겪고 있습니다.

#Review #Instruction-Guided Video Editing #Diffusion Models #Semantic Anchoring #Motion Alignment #Factorized Pre-training #Zero-shot Learning #Temporal Consistency

2026년 3월 19일

[논문리뷰] DVD: Deterministic Video Depth Estimation with Generative Priors

기존 비디오 Depth Estimation 방법론은 근본적인 Trade-off에 직면해 있습니다.

#Review #Video Depth Estimation #Generative Priors #Deterministic Adaptation #Diffusion Models #Latent Manifold Rectification #Global Affine Coherence #Zero-shot Learning #Temporal Consistency

2026년 3월 12일

[논문리뷰] DreamWorld: Unified World Modeling in Video Generation

기존 비디오 생성 모델들이 시각적 사실성만을 추구하고 세계에 대한 일관된 이해가 부족한 한계를 해결하는 것이 목표입니다. 물리적 상식, 3D 및 시간적 일관성과 같은 이질적인 세계 지식 을 비디오 생성기에 통합하고, 이로 인해 발생하는 시각적 불안정성과 시간적 깜빡임 문제를 완화하고자 합니다.

#Review #Video Generation #World Modeling #Diffusion Models #Multi-modal Integration #Temporal Consistency #Spatial Geometry #Semantic Consistency #Constraint Annealing

2026년 3월 5일

[논문리뷰] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

본 논문은 대규모 정렬된(paired) 비디오 데이터셋의 부족 으로 인해 특히 로컬 비디오 편집 에서 발생하는 문제점을 해결하고자 합니다.

#Review #Video Editing #Diffusion Models #Unpaired Learning #Temporal Consistency #Sparse Control #Dense Synthesis #Degradation Simulation #Keyframe Guidance

2026년 3월 3일

[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context

이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Autoregressive Models #Long Context #Temporal Consistency #Diffusion Models #Context Forcing #Memory Management #Distribution Matching Distillation

2026년 2월 5일

[논문리뷰] SkyReels-V3 Technique Report

본 논문은 SkyReels-V3 를 통해 시각적 참조, 비디오, 오디오 및 텍스트 입력을 통합하여 유연하고 제어 가능한 비디오 생성을 가능하게 하는 통합 멀티모달 조건부 비디오 생성 프레임워크 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal AI #Diffusion Models #Transformer Architecture #Reference-guided Generation #Video-to-Video #Audio-driven Animation #Temporal Consistency

2026년 1월 26일

[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation

본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.

#Review #Interactive Video Generation #Humanoid Synthesis #Real-time #Streaming Diffusion #MMDiT #Temporal Consistency #Multimodal Control #Low Latency

2026년 1월 15일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

비디오 생성 분야에서 Diffusion 및 Flow-Matching 모델 의 높은 계산 비용과 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Autoregressive Models #Next-Frame Prediction #Multi-scale Prediction #Temporal Consistency #Visual Autoregressive #Error Propagation

2026년 1월 11일

[논문리뷰] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

본 논문은 제어 가능한 비디오 편집 패러다임인 First-Frame Propagation (FFP) 의 주요 한계를 해결하고자 합니다.

#Review #Video Editing #First-Frame Propagation (FFP)#Large-Scale Dataset #Generative Models #Temporal Consistency #Spatio-Temporal RoPE #Self-Distillation

2026년 1월 6일

[논문리뷰] InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

본 논문은 실시간 스트리밍 환경에서 3D 시각 기하학 이해 가 확장성과 장기적 안정성이라는 상충되는 요구사항으로 인해 제한되는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Transformer #Streaming Perception #Memory Management #KV Cache Pruning #Visual Geometry #Temporal Consistency #Continuous Learning

2026년 1월 5일

[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.

#Review #Video Face Swapping #Diffusion Transformer #Identity Preservation #Temporal Consistency #Modality-Aware Conditioning #Reinforcement Learning #Data Synthesis

2026년 1월 5일

[논문리뷰] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

본 논문은 기존 확산 모델 기반 비디오 초해상화(VSR) 방법들이 높은 지각 품질(perceptual quality)을 제공함에도 불구하고, 미래 프레임 의존성 및 다단계 노이즈 제거 과정으로 인한 높은 지연 시간 때문에 실시간 온라인 적용이 불가능하다는 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Diffusion Models #Low-Latency #Streamable #Auto-Regressive #Model Distillation #Temporal Consistency #Perceptual Quality

2025년 12월 29일

[논문리뷰] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

본 논문은 상업적 활용에 적합한 수준의 사실적인 비디오 객체 삽입(VOI) 을 달성하는 것을 목표로 합니다. 특히, 제한적인 4D 장면 이해 와 가려짐(occlusion) , 조명 효과 에 대한 부적절한 처리로 인해 발생하는 문제를 해결하여 기하학적으로 일관되고 외관상 충실한 비디오 합성을 구현하고자 합니다.

#Review #Video Object Insertion (VOI)#4D Scene Geometry #Diffusion Models #Mask Generation #Temporal Consistency #Occlusion Handling #Illumination Synthesis #ROSE++ Dataset

2025년 12월 28일

[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

고해상도 비디오 생성은 확산 모델의 제곱 복잡도 로 인해 계산적으로 병목 현상이 발생하여 실용적인 추론이 불가능하다는 문제를 해결하고자 합니다.

#Review #High-Resolution Video Generation #Diffusion Models #Autoregressive #Efficiency #Caching #Attention Mechanisms #Video Streaming #Temporal Consistency

2025년 12월 24일

[논문리뷰] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

본 논문은 인터랙티브 애플리케이션을 위한 G-buffer 조건부 신경망 포워드 프레임 렌더링에서 시간적 일관성 을 유지하는 동시에 사실적인 이미지를 프레임별로 자동회귀적으로 생성 하는 문제를 해결하는 것을 목표로 합니다. 기존 단일 이미지 모델의 시간적 불일치 와 비디오 모델의 높은 연산 비용 문제를 극복하고자 합니다.

#Review #Neural Rendering #Diffusion Models #G-Buffer #Autoregressive Generation #Temporal Consistency #ControlNet #ControlLoRA #Interactive Applications

2025년 12월 18일

[논문리뷰] MMGR: Multi-Modal Generative Reasoning

본 논문은 대규모 텍스트-투-비디오 모델 평가의 한계, 특히 인지적 충실도를 넘어선 추론 능력 을 평가하는 문제를 해결하고자 합니다.

#Review #Multi-Modal Generative Models #Reasoning Evaluation #World Models #Physical Commonsense #Abstract Reasoning #Embodied Navigation #VLM-based Evaluation #Temporal Consistency

2025년 12월 16일

[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

논문은 기존 비디오 생성 모델에서 물리적으로 사실적인 비디오 편집을 위한 내재적 속성(intrinsic properties) 에 대한 정확하고 일관된 제어의 부재 문제를 해결하고자 합니다.

#Review #Video Editing #Intrinsic Decomposition #Video Generation #Diffusion Models #Keyframe Editing #Inverse Rendering #Temporal Consistency #Physically Based Rendering

2025년 12월 14일

[논문리뷰] VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

본 논문은 AR(Autoregressive) 비디오 확산 모델의 고질적인 문제인 에러 누적, 모션 드리프트, 콘텐츠 반복 문제를 해결하여 분 단위 스케일의 장기적인 일관성 과 점진적인 동적 변화 를 동시에 유지하는 것을 목표로 합니다.

#Review #Autoregressive Video Generation #Diffusion Models #Hybrid Memory #State-Space Models (SSM)#Long Video Synthesis #Temporal Consistency #Interactive AI

2025년 12월 10일

[논문리뷰] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

본 논문은 기존의 얼굴 교체(face swapping) 기술들이 장시간의 복잡한 비디오 시퀀스에서 높은 충실도(high fidelity)와 시간적 일관성(temporal consistency)을 유지하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Face Swapping #Video Editing #Diffusion Models #Reference-guided Generation #Temporal Consistency #Keyframe Conditioning #Cinematic Quality #Dataset Construction

2025년 12월 9일

[논문리뷰] Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

본 논문의 핵심 목표는 단안 카메라로 촬영된 불완전한 마네킹 챌린지(Mannequin-Challenge, MC) 영상 에서 미세한 움직임으로 인해 발생하는 고스팅(ghosting) 및 블러(blur) 아티팩트를 제거하고, 고품질의 완벽하게 정지된 3D 장면(freeze-time video) 을 합성하는 것입니다.

#Review #Monocular 3D Reconstruction #Mannequin Challenge #Dynamic Gaussian Splatting #Freeze-Time Video #Temporal Consistency #Artifact Suppression #Regularization

2025년 12월 4일

[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

본 논문은 기존 확산 모델 기반 비디오 생성 방법론의 순차적 계산 및 장기 불일치 문제를 해결하여, 실시간 스트리밍 환경에서 140억 개 파라미터 규모의 확산 모델을 사용하여 무한 길이 의 고품질 오디오 기반 아바타 생성을 가능하게 하는 것을 목표로 합니다.

#Review #Audio-Driven Avatar Generation #Real-time Streaming #Diffusion Models #Infinite Length #Pipeline Parallelism #Temporal Consistency #Model Distillation

2025년 12월 4일

[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.

#Review #Block Diffusion #Video Generation #Temporal Consistency #KV Cache #Semi-Autoregressive #Video Quality Metrics #Long Video Generation

2025년 12월 2일

[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.

#Review #Image Generation #Video Models #Diffusion Models #Many-to-many #Unified Framework #Temporal Consistency #Image Editing #Positional Embedding

2025년 11월 25일

[논문리뷰] VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models

본 논문은 조잡한(coarse) 3D 지오메트리, 카메라 궤적, 그리고 참조 이미지를 사용하여 고품질 3D 장면 비디오를 생성하는 문제를 해결하고자 합니다.

#Review #3D Scene Generation #Video Diffusion #Image Diffusion #Generative Models #Computer Graphics #Temporal Consistency #Sparse Anchor Views

2025년 9월 23일

[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

훈련 없이 비디오 객체 편집(삽입, 교체, 삭제)을 수행할 때 발생하는 정확한 인버전 실패와 부적절한 특성 대체로 인한 문맥적 충돌 문제를 해결하고, 특히 Diffusion Transformer (DiT) 기반 모델 에서 고품질 및 시간적 일관성을 유지하는 비디오 객체 편집 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Video Object Editing #Training-Free #Diffusion Transformers #Rectified Flow #Adaptive Context Enrichment #Guidance Responsiveness #Temporal Consistency #Image-to-Video

2025년 9월 23일

[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models

본 연구는 비디오에서 배경을 교체하고 동시에 포그라운드의 조명을 조화롭게 조정하는 비디오 리라이팅 태스크를 해결하는 것을 목표로 합니다. 특히, 포그라운드의 본래 속성(예: 알베도, 텍스처)을 일관되게 보존 하면서 시간적 프레임 간 일관된 조명 변경을 전파 하는 것이 주된 도전 과제입니다.

#Review #Video Relighting #Background Replacement #Generative Models #Diffusion Models #Temporal Consistency #Dataset Generation #Video Editing

2025년 8월 19일

[논문리뷰] CharacterShot: Controllable and Consistent 4D Character Animation

본 논문은 단일 캐릭터 이미지와 2D 포즈 시퀀스를 입력으로 받아, 사용자가 제어할 수 있는 동적인 3D 캐릭터(4D 캐릭터 애니메이션)를 생성하는 프레임워크인 CharacterShot 을 제안합니다.

#Review #4D Character Animation #Diffusion Models #Gaussian Splatting #Pose Control #Multi-view Synthesis #Temporal Consistency #Character Dataset

2025년 8월 13일

[논문리뷰] DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

기존 비디오 가상 피팅(VVT) 기술의 한계, 즉 데이터 부족, 디테일 보존 실패, 비제약적 환경에서의 시간적 일관성 부족 문제를 해결하는 것이 목표입니다. 특히, 실제 시나리오에서 다양한 의류와 환경에 대한 적응성을 높여 고품질의 사실적인 비디오 가상 피팅 을 구현하고자 합니다.

#Review #Video Virtual Try-On #Diffusion Transformers #Stage-Wise Framework #Vision-Language Models #LoRA #Temporal Consistency #Garment Preservation

2025년 8월 7일

[논문리뷰] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

본 논문은 기존 비디오 생성 모델이 짧은 클립에는 효과적이지만, 시간적 불일치(temporal inconsistency) 와 시각적 품질 저하(visual degradation) 문제로 인해 1분 이상의 초장시간 비디오 생성 에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Ultra-long Video Generation #Multimodal Guidance #Controllable Video Generation #Diffusion Models #Temporal Consistency #Visual Quality #Autoregressive Generation #Degradation-aware Training

2025년 8월 6일

[논문리뷰] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

본 논문은 단일 입력 비디오에서 시간적으로 변화하는 3D 기하학과 시점 일관성을 갖춘 외형(4D Shape)을 직접 복원하는 것을 목표로 합니다.

#Review #4D Shape Generation #Video-conditioned #Dynamic 3D Meshes #Latent Diffusion Model #Spatiotemporal Attention #Temporal Consistency #Pre-trained 3D Models #VAE

2025년 10월 8일