#Image-to-Video

14개의 포스트

[논문리뷰] SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

본 논문은 2K 고해상도 I2V 생성에서 발생하는 계산 효율성(Efficiency)과 입력 이미지 충실도(Fidelity) 사이의 심각한 trade-off 문제를 해결하고자 한다.

#Review #Image-to-Video #High-Resolution Generation #Diffusion Transformer #Conditional Segment-wise Generation #Efficiency #Streaming Inference

2026년 5월 7일

[논문리뷰] WorldMark: A Unified Benchmark Suite for Interactive Video World Models

저자들은 Interactive I2V 모델들을 위한 최초의 표준화된 벤치마크인 WorldMark를 제안합니다. 이 프레임워크의 핵심은 모델별 제어 방식을 WASD 표준 액션으로 변환하는 Unified Action-mapping Adapter를 통해 6개 주요 모델을 동일 조건에서 비교하는 것입니다.

#Review #Interactive World Models #Image-to-Video #Benchmark #Unified Control Interface #World Consistency #Cross-Model Evaluation

2026년 4월 23일

[논문리뷰] DreamStyle: A Unified Framework for Video Stylization

본 논문은 텍스트, 스타일 이미지, 스타일이 적용된 첫 프레임 등 단일 모달리티 조건에 국한된 기존 비디오 스타일 변환 방법론의 한계를 해결하고, 고품질 데이터 부족 및 시간적 일관성 문제를 극복하여 다중 모달리티 스타일 가이드를 지원하는 통합 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Video Stylization #Unified Framework #Diffusion Models #LoRA #Data Curation #Multi-modal Input #Image-to-Video

2026년 1월 6일

[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model

본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.

#Review #Interactive World Generation #Video Diffusion Models #Text-to-Video #Image-to-Video #Real-time Generation #Temporal-Spatial-Channel Modeling #Self-Forcing

2025년 12월 29일

[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

기존 모션 제어 비디오 생성 모델의 낮은 제어 정밀도, 제한된 확장성 및 비실용적인 출력 품질 문제를 해결하고자 합니다.

#Review #Video Generation #Motion Control #Latent Trajectory Guidance #Image-to-Video #Diffusion Models #Neural Networks #MoveBench

2025년 12월 9일

[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

이 논문은 기존 다중 샷 비디오 생성(MSV) 모델이 복잡한 서사에 필요한 장거리 샷 간 컨텍스트를 효과적으로 모델링하지 못하여 발생하는 시각적 불일치와 일관성 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Shot Video Generation #Adaptive Memory #Long-Range Context #Frame Selection #Diffusion Models #Image-to-Video #Autoregressive Generation #Narrative Coherence

2025년 12월 9일

[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

기존 비디오 생성 모델들이 시각적 품질은 뛰어나지만, 명시적인 물리적 제어 가능성과 현실성이 부족하다는 문제를 해결하는 것을 목표로 합니다. 단일 이미지로부터 객체의 물리적 특성을 추론하고, 이를 기반으로 물리적으로 정확하며 역동적인 비디오를 생성하는 새로운 프레임워크를 제안합니다.

#Review #Video Generation #Physics Simulation #Controllable AI #Part-Aware #Semantic Grounding #Material Properties #Image-to-Video #Diffusion Models

2025년 11월 25일

[논문리뷰] In-Video Instructions: Visual Signals as Generative Control

본 논문은 대규모 비디오 생성 모델의 제어 가능성을 탐구하며, 기존 텍스트 프롬프트의 한계인 전역적이고 추상적인 제어를 극복하고자 합니다.

#Review #Video Generation #Controllable AI #Visual Instructions #Image-to-Video #Spatial Control #Zero-shot Learning #Generative Models

2025년 11월 24일

[논문리뷰] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

본 논문은 기존의 이미지-투-비디오(I2V) 생성 모델 평가 벤치마크가 시각적 충실도와 시간적 일관성에 집중하여 고차원적인 추론 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Generative Models #Visual Reasoning #Benchmarking #Image-to-Video #TiViBench #VideoTPO #Prompt Optimization

2025년 11월 17일

[논문리뷰] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

기존 확산 모델 기반 relighting 기법의 물리적 비일관성 문제(예: 과노출 하이라이트, 그림자 부정확성)를 해결하고, 물리적으로 그럴듯하며 세밀하게 제어 가능한 이미지 및 비디오 relighting을 위한 통합 프레임워크(UniLumos) 를 개발하는 것을 목표로 합니다.

#Review #Relighting #Diffusion Models #Flow Matching #Physics-Plausible Feedback #Image-to-Video #Geometric Supervision #Path Consistency Learning #LumosBench

2025년 11월 9일

[논문리뷰] ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment

훈련 없이 비디오 객체 편집(삽입, 교체, 삭제)을 수행할 때 발생하는 정확한 인버전 실패와 부적절한 특성 대체로 인한 문맥적 충돌 문제를 해결하고, 특히 Diffusion Transformer (DiT) 기반 모델 에서 고품질 및 시간적 일관성을 유지하는 비디오 객체 편집 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Video Object Editing #Training-Free #Diffusion Transformers #Rectified Flow #Adaptive Context Enrichment #Guidance Responsiveness #Temporal Consistency #Image-to-Video

2025년 9월 23일

[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.

#Review #Human-Centric Video Generation #Multimodal Conditioning #Text-to-Video #Image-to-Video #Audio-to-Video #Diffusion Models #Subject Preservation #Audio-Visual Synchronization #Progressive Training

2025년 9월 12일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.

#Review #Video Generation #Physical Plausibility #Reinforcement Learning #Direct Preference Optimization #Physical Representation #Diffusion Models #World Models #Image-to-Video

2025년 10월 16일