#Video Editing

28개의 포스트

[논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

본 연구는 기존 Unified Video Generation 모델들이 대규모 파라미터(13B 이상)에 의존하고, 비디오 편집 시 소스 토큰 연결로 인해 연산 비용이 기하급수적으로 증가하는 문제를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Multimodal Large Language Model (MLLM)#Diffusion Transformer (DiT)#Deepstack Injection #Scale-and-Add

2026년 6월 4일

[논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion

본 논문은 현대의 MLLM과 영상 확산 모델(Diffusion Model)이 각각 고도의 추론 능력과 사실적 합성 능력을 갖추고 있음에도 불구하고, 이들을 효과적으로 통합하는 프레임워크가 부족하다는 점에 주목합니다.

#Review #Video Diffusion #Multimodal Large Language Models #Latent Semantic Planning #Diffusion Transformer #Video Editing #Chain-of-Thought

2026년 5월 21일

[논문리뷰] Aurora: Unified Video Editing with a Tool-Using Agent

본 논문은 현대의 통합형 비디오 편집 모델들이 모델이 처리할 수 있는 형식의 입력(model-ready input)을 전제로 설계되어 있어, 실제 사용자의 불완전한 자연어 요청을 처리하는 데 한계가 있다는 문제에서 출발합니다.

#Review #Video Editing #Tool-Using Agent #Unified Diffusion Transformer #Visual Underspecification #Instruction Following

2026년 5월 19일

[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.

#Review #Video Editing #Reward Model #Benchmark #Instruction Following #Human Alignment

2026년 4월 19일

[논문리뷰] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

영상 편집은 시각적 스토리텔링과 오디오의 리듬감을 결합하는 복잡한 작업이나, 수 시간 분량의 원본 영상을 수동으로 편집하는 것은 매우 노동 집약적이며 전문적인 미적 판단을 요구합니다.

#Review #Multimodal Language Models #Video Editing #Audio-Visual Alignment #Multi-Agent System #Hierarchical Planning

2026년 3월 31일

[논문리뷰] Versatile Editing of Video Content, Actions, and Dynamics without Training

최근 generative video models의 발전에도 불구하고, 실제 비디오에서 액션이나 dynamic event를 편집하거나, 삽입된 content가 다른 객체의 행동에 영향을 미치도록 하는 non-rigid, dynamic manipulation은 여전히 큰 도전 과제입니다.

#Review #Video Editing #Training-Free #Inversion-Free #Rectified Flow Models #Similarity Guided Aggregation (SGA)#Annealed Noise Correlation (ANC)#Text-to-Video Flow Models #Dynamic Manipulation

2026년 3월 22일

[논문리뷰] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

본 논문은 대규모 정렬된(paired) 비디오 데이터셋의 부족 으로 인해 특히 로컬 비디오 편집 에서 발생하는 문제점을 해결하고자 합니다.

#Review #Video Editing #Diffusion Models #Unpaired Learning #Temporal Consistency #Sparse Control #Dense Synthesis #Degradation Simulation #Keyframe Guidance

2026년 3월 3일

[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.

#Review #Video Editing #Instruction Guidance #Reference Guidance #Diffusion Models #MLLM #Dataset Generation #RefVIE #Curriculum Learning

2026년 3월 3일

[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Video Foundation Models #Unified Evaluation #Multi-task Learning #Video Understanding #Video Generation #Video Editing #Video Reconstruction #Agentic Evaluation #Cinematic Dimensions

2026년 2월 25일

[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

이 논문은 텍스트, 이미지, 비디오, 마스크, 오디오 참조를 포함한 다양한 입력을 처리하고, 비디오-오디오 생성, 인페인팅 및 편집 기능을 단일 프레임워크 내에서 통합적으로 지원하는 멀티모달 비디오 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multi-modal Generation #Video-Audio Synthesis #Video Inpainting #Video Editing #Diffusion Transformer #MMLM #Super-resolution #Frame Interpolation

2026년 2월 25일

[논문리뷰] End-to-End Video Character Replacement without Structural Guidance

본 논문은 기존 비디오 캐릭터 교체 방법론이 페어링된 데이터 부족과 per-frame segmentation masks 및 explicit structural guidance (e.g., skeleton, depth) 에 의존하여 일반화 및 시각적 일관성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Video Character Replacement #Diffusion Models #In-Context Learning #Reinforcement Learning #Structural Guidance #Video Editing #Data Generation Pipeline

2026년 1월 13일

[논문리뷰] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

본 논문은 제어 가능한 비디오 편집 패러다임인 First-Frame Propagation (FFP) 의 주요 한계를 해결하고자 합니다.

#Review #Video Editing #First-Frame Propagation (FFP)#Large-Scale Dataset #Generative Models #Temporal Consistency #Spatio-Temporal RoPE #Self-Distillation

2026년 1월 6일

[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.

#Review #Unified Generation #Multimodal Diffusion #Vision-Language Model #Image Editing #Video Editing #Interleaved Context #Progressive Training #Diffusion Transformer

2026년 1월 5일

[논문리뷰] Region-Constraint In-Context Generation for Instructional Video Editing

본 논문은 텍스트 지시만으로 비디오 콘텐츠를 정밀하게 수정 하는 인-컨텍스트 비디오 편집 과정에서 발생하는 문제를 해결하고자 합니다. 구체적으로, 편집 영역이 불정확하고 노이즈 제거 과정 중 편집 및 비편집 영역 간의 토큰 간섭이 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Editing #In-Context Learning #Diffusion Models #Region-Constraint #Instruction-based Editing #Latent Space Regularization #Attention Space Regularization #Large-scale Dataset

2025년 12월 22일

[논문리뷰] Kling-Omni Technical Report

논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal Visual Language #Generative AI #Video Editing #Reasoning-enhanced Generation #Diffusion Transformer #Multi-modal World Simulators

2025년 12월 18일

[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

논문은 기존 비디오 생성 모델에서 물리적으로 사실적인 비디오 편집을 위한 내재적 속성(intrinsic properties) 에 대한 정확하고 일관된 제어의 부재 문제를 해결하고자 합니다.

#Review #Video Editing #Intrinsic Decomposition #Video Generation #Diffusion Models #Keyframe Editing #Inverse Rendering #Temporal Consistency #Physically Based Rendering

2025년 12월 14일

[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Diffusion Models #Image Generation #Video Generation #Image Editing #Video Editing #Latent Space Planning #Canvas Tokens #Information Transfer

2025년 12월 14일

[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

본 논문은 강력한 Vision-Language Model (VLM) 을 탑재한 최신 비디오 통합 모델들이 추론 기반 시각 편집(reason-informed visual editing) 에서 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Reasoning #Unified Models #Self-Reflective Learning #Vision-Language Models (VLMs)#Diffusion Models #RVE-Bench

2025년 12월 11일

[논문리뷰] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

본 논문은 기존의 얼굴 교체(face swapping) 기술들이 장시간의 복잡한 비디오 시퀀스에서 높은 충실도(high fidelity)와 시간적 일관성(temporal consistency)을 유지하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Face Swapping #Video Editing #Diffusion Models #Reference-guided Generation #Temporal Consistency #Keyframe Conditioning #Cinematic Quality #Dataset Construction

2025년 12월 9일

[논문리뷰] Unified Video Editing with Temporal Reasoner

기존 비디오 편집 모델들이 겪는 정밀도(expert models)와 통합성/마스크-프리(in-context learning models) 간의 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Diffusion Models #Temporal Reasoning #Chain-of-Thought #In-Context Learning #ROPE #Multi-instance Editing

2025년 12월 8일

[논문리뷰] Layer-Aware Video Composition via Split-then-Merge

본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video Composition #Diffusion Models #Layer-Aware Generation #Self-Composition #Affordance Learning #Video Editing #Data Augmentation

2025년 11월 30일

[논문리뷰] GenCompositor: Generative Video Compositing with Diffusion Transformer

본 논문은 기존의 수동적이고 노동 집약적인 비디오 합성(Video Compositing) 과정을 생성형 모델 을 사용하여 자동화하는 것을 목표로 합니다.

#Review #Video Compositing #Diffusion Transformer #Generative Models #Video Editing #Position Embedding #Diffusion Models #Masked Token Injection #Video Harmonization

2025년 9월 3일

[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models

본 연구는 비디오에서 배경을 교체하고 동시에 포그라운드의 조명을 조화롭게 조정하는 비디오 리라이팅 태스크를 해결하는 것을 목표로 합니다. 특히, 포그라운드의 본래 속성(예: 알베도, 텍스처)을 일관되게 보존 하면서 시간적 프레임 간 일관된 조명 변경을 전파 하는 것이 주된 도전 과제입니다.

#Review #Video Relighting #Background Replacement #Generative Models #Diffusion Models #Temporal Consistency #Dataset Generation #Video Editing

2025년 8월 19일

[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for Videos

기존의 통합 멀티모달 모델들이 이미지 도메인에 주로 한정되어 있고, 비디오 관련 작업은 태스크별 전문 모델에 의존하는 한계를 극복하고자 합니다. 본 연구는 비디오에 대한 통합적인 이해, 생성, 편집 을 단일 프레임워크 내에서 수행할 수 있는 다재다능한 모델을 개발하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Video Generation #Video Editing #MLLM #Diffusion Transformer #In-Context Learning #Zero-shot Generalization #Multimodal AI

2025년 10월 10일

[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Multi-Modal Generation #Latent Diffusion Models #Cascaded Framework #Condition Injection #Text-to-Video #Video Editing #4K Video

2025년 10월 10일

[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance

컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.

#Review #Visual Editing #MLLM Guidance #Diffusion Models #Image Editing #Video Editing #Unified Framework #Multimodal AI #Instruction-based Editing

2025년 10월 10일

[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

본 논문은 기존의 훈련 없이(training-free) 텍스트 기반 시각 편집 방법론이 겪는 한계, 즉 강한 편집 강도를 유지하면서도 원본과의 일관성을 보존하기 어렵다는 문제를 해결하고자 합니다.

#Review #Image Editing #Video Editing #Diffusion Transformer #Attention Control #Training-free #Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation

2025년 10월 21일

[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.

#Review #Video Editing #Instruction-Based Editing #Synthetic Data Generation #Dataset #Curriculum Learning #Diffusion Models #Vision-Language Models

2025년 10월 20일