#Image Editing

87개의 포스트

[논문리뷰] CtrlVTON: Controllable Virtual Try-On via Visual-Instance-Prompt Segmentation

본 논문은 기존 가상 착장(VTO) 시스템이 의류의 스타일, 크기, 공간적 배치와 같은 사용자 수준의 미세한 제어를 지원하지 못한다는 한계를 해결하고자 한다.

#Review #Virtual Try-On #Image Editing #Visual-Instance-Prompt Segmentation #Segmentation Masks #Diffusion Transformer #Controllability

2026년 7월 13일

[논문리뷰] ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

기존의 WAM은 미래 비디오 생성에 의존하여 로봇 행동을 추론하지만, 여기에는 세 가지 심각한 한계가 존재합니다. 우선, 다수의 프레임에 대한 시공간 토큰을 처리해야 하므로 Inference 비용이 극도로 높습니다.

#Review #World Action Models #Image Editing #Robot Manipulation #Flow Matching #Efficient Inference #Embodied AI

2026년 6월 18일

[논문리뷰] Text-Vision Co-Instructed Image Editing

본 논문은 기존 이미지 편집 방식이 가진 공간 제어의 불명확성과 의미적 의도의 모호성 문제를 해결하기 위해 제안되었습니다. 기존의 textual instruction-based 모델은 의미적 표현력은 뛰어나지만, 정교한 공간적 제어나 객체의 움직임을 지정하는 데 한계가 있습니다 .

#Review #Computer Vision #Diffusion Models #Image Editing #Text-Vision Co-Instruction #Spatial Control #Semantic Editing

2026년 6월 16일

[논문리뷰] Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing

본 논문은 현재의 확산 모델(Diffusion-based models) 기반 이미지 편집 시스템이 표면적인 지시사항 수행(Surface-level instruction following)에만 치중하여 논리적 일관성이 결여된 결과물을 생성하는 문제를 해결하고자 합니다 .

#Review #Image Editing #Reasoning-aware #Benchmark #Diffusion Models #Multi-modal LLMs #Logic Consistency #EditRefine

2026년 6월 4일

[논문리뷰] Qwen-Image-Flash: Beyond Objective Design

본 논문은 기존의 few-step distillation 연구가 주로 증류 목적 함수(Distillation Objective) 설계에만 치중하여 실제 훈련 레시피(Training Recipe)가 미치는 영향력을 간과했다는 점을 지적한다.

#Review #Few-step Distillation #Flow Matching #DMD #T2I Generation #Image Editing #Training Recipe #Multi-teacher Guidance

2026년 6월 3일

[논문리뷰] PaintBench: Deterministic Evaluation of Precise Visual Editing

본 논문은 최신 멀티모달 모델들이 일반적인 시각 편집에는 능숙하지만, 정확한 단일 결과가 요구되는 정밀 편집 작업(Precise Visual Editing) 수행에는 한계를 보인다는 문제 의식에서 출발합니다.

#Review #Multimodal Models #Image Editing #Benchmark #Deterministic Evaluation #Pixel-level #Procedural Generation

2026년 6월 3일

[논문리뷰] From Plans to Pixels: Learning to Plan and Orchestrate for Open-Ended Image Editing

기존의 Diffusion-based 이미지 편집 모델들은 '모자를 추가하라'와 같은 명확하고 구체적인 작업에는 우수한 성능을 보이지만, '광고를 채식주의자 친화적으로 바꾸라'와 같은 추상적이고 다단계의 장기적인(long-horizon) 지시사항을 처리하는 데에는 한계가 있습니다.

#Review #Long-horizon #Image Editing #Planner-Orchestrator #Experiential Learning #Reward-driven #Multimodal LLM #Diffusion Models

2026년 5월 17일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective

본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.

#Review #Generative Spatial Intelligence #Multimodal Large Language Models #Image Editing #Benchmark #Sim-to-Real Transfer

2026년 4월 22일

[논문리뷰] HP-Edit: A Human-Preference Post-Training Framework for Image Editing

본 논문은 기존의 이미지 편집 모델이 SFT(Supervised Fine-Tuning) 데이터의 품질 불일치와 실제 인간 선호도와 동떨어진 결과물을 생성하는 문제를 해결하고자 한다.

#Review #Image Editing #Human-Preference Alignment #Reinforcement Learning #Flow Matching #Visual Large Language Model

2026년 4월 21일

[논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing

본 논문은 HOI(Human-Object Interaction)의 생성과 편집이 서로 분리된 연구 흐름으로 발전해 온 비효율성을 해결하기 위해 통합 프레임워크인 OneHOI를 제안합니다.

#Review #Human-Object Interaction #Diffusion Transformer #Image Editing #Unified Framework #Relational Modeling #Spatial Control

2026년 4월 16일

[논문리뷰] RewardFlow: Generate Images by Optimizing What You Reward

본 연구는 기존의 diffusion 기반 이미지 편집 모델들이 요구하는 고비용의 fine-tuning 또는 불안정한 inversion 과정을 극복하고, zero-shot 설정에서 보다 정교하고 일관된 편집을 수행하는 것을 목적으로 합니다.

#Review #Diffusion Models #Flow Matching #Langevin Dynamics #Image Editing #Zero-shot Generation #Multi-reward Guidance #Adaptive Policy

2026년 4월 9일

[논문리뷰] FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

본 논문은 Rectified Flow 기반 이미지 편집에서 학습 없이(training-free) 편집 강도를 안정적으로 조절할 수 있는 슬라이더 메커니즘 부재 문제를 해결합니다. 기존의 학습 기반 슬라이더 기법들은 추가적인 데이터와 학습 비용이 발생하며, 특정 도메인 분포에 의존적이라는 한계가 있습니다.

#Review #Rectified Flow #Image Editing #Training-Free #Slider Control #Fidelity-Steering Decomposition

2026년 4월 2일

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .

#Review #Image Generation #Image Editing #Benchmark #Human Evaluation #Explainable AI #Multimodal Learning

2026년 3월 30일

[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing

최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.

#Review #Image Editing #Benchmark #Visual Consistency #Pairwise Evaluation #Human-Aligned #VLM-as-a-Judge

2026년 3월 30일

[논문리뷰] DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

최근 diffusion model은 T2I generation과 text-guided editing 분야에서 비약적인 발전을 이루었으나, 대부분 수십억 개의 파라미터를 필요로 하여 온디바이스 환경에서의 배포에 한계가 있다.

#Review #Diffusion Models #On-device AI #Image Generation #Image Editing #Unified Architecture #Task-progressive Pretraining

2026년 3월 30일

[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Diffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Reward Modeling #Image Editing #Image Generation #MLLM #Data Curation #Fidelity #Instruction Following

2026년 3월 12일

[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

본 연구는 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다. 특히, 이산적인 시각 토크나이저 사용으로 인한 세부 의미 정보 손실 문제와, 연속적인 고차원 시각 표현을 직접 모델링할 때 발생하는 학습 불안정성 및 느린 수렴 문제를 극복하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Image Generation #Image Understanding #Semantic Compression #Continuous Representation #Diffusion Model #Transformer #Image Editing

2026년 3월 11일

[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

통합 멀티모달 모델(UMM)이 강한 의미론적 이해와 강력한 생성 능력 사이에서 겪는 본질적인 상충 관계를 해결하고자 합니다. 이 논문은 InternVL-U 라는 경량의 4B 매개변수 UMM을 제안하여, 이해, 추론, 생성, 편집 능력을 하나의 통합 프레임워크 내에서 민주화하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Multimodal Large Language Model #Image Generation #Image Editing #Chain-of-Thought #Data Synthesis #Low-parameter Models

2026년 3월 10일

[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

이 논문은 기존의 통합 이미지 편집 모델들이 고정된 공유 백본을 사용함으로써 다중 조건(텍스트, 마스크, 참조 이미지) 입력 시 발생하는 태스크 간섭, 색상 번짐, 정체성/스타일 왜곡 등의 문제를 해결하고자 합니다.

#Review #Image Editing #Diffusion Models #Mixture-of-Experts (MoE)#Condition-Aware Routing #Contextual Image Editing #Mask Repaint #Latent Mixture #Diffusion Transformer

2026년 3월 9일

[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

본 논문은 이미지 편집 작업의 고유한 특성(목표 지향적, 소스 이미지 및 지침에 의한 제약)을 고려하여, 기존 텍스트-투-이미지(T2I) 중심의 Image Chain-of-Thought (Image-CoT) 방법론의 비효율성을 해결 하는 것을 목표로 합니다.

#Review #Image Editing #Test-Time Scaling #Chain-of-Thought #Diffusion Models #Adaptive Resource Allocation #Edit-Specific Verification #Opportunistic Stopping

2026년 3월 2일

[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Image Editing #Instruction-based Models #Small Object Editing #Benchmark #Evaluation Metrics #Large Multimodal Models (LMMs)#Visual Consistency

2026년 3월 1일

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.

#Review #Multimodal Models #Generative AI #Understanding #Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation #Optimization Dilemma #Image Editing

2026년 2월 17일

[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion Models #Reasoning #Reinforcement Learning #Supervised Finetuning #Visual Question Answering #Image Editing #Object Grounding #Policy Gradient

2026년 2월 16일

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.

#Review #Multimodal Model #Image Generation #Image Editing #Diffusion Models #VLM-DiT Architecture #Stacked Channel Bridging #Reinforcement Learning #Lightweight Models

2026년 2월 12일

[논문리뷰] Rethinking Global Text Conditioning in Diffusion Transformers

이 논문은 확산 트랜스포머(Diffusion Transformers)에서 변조(modulation) 기반의 글로벌 텍스트 조건화(pooled text embedding) 가 필수적인지, 그리고 성능 향상에 기여할 수 있는지에 대한 질문을 해결하고자 합니다.

#Review #Diffusion Transformers #Text Conditioning #CLIP Embedding #Modulation Guidance #Text-to-Image Generation #Image Editing #Training-free

2026년 2월 10일

[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

본 논문은 기존 이미지 편집 모델의 한계를 극복하고, 전문적인 워크플로우를 지원하는 고품질, 네이티브 해상도 이미지 편집 시스템을 개발하는 것을 목표로 합니다.

#Review #Image Editing #Agentic AI #Multi-turn Interaction #High-Fidelity #Native Resolution #LLM #Context Folding #Layer Decomposition

2026년 2월 10일

[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.

#Review #Multimodal Models #Image Generation #Image Editing #Benchmark #Computer-Use Tasks #Planning #Evaluation Metrics

2026년 2월 8일

[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Image Generation #Image Editing #World Knowledge #Self-Reflection #Unified Framework #Text-to-Image

2026년 2월 2일

[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.

#Review #Visual Instruction #Image Editing #Multimodal Benchmark #LMM-as-a-judge #Deictic Grounding #Morphological Manipulation #Causal Reasoning #Generative Models

2026년 2월 2일

[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.

#Review #Composed Image Retrieval #Fine-Grained Evaluation #Image Editing #Benchmark #Multimodal LLM #Synthetic Data #Compositional Reasoning

2026년 1월 22일

[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.

#Review #In-Context Image Generation #Image Editing #Multimodal Models #Chain-of-Thought #Structured Reasoning #Reinforcement Learning #Alignment #Diffusion Models

2026년 1월 8일

[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reasoning #Chain-of-Thought #Multimodal Generative Models #Reward Modeling #VLM

2026년 1월 7일

[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context

본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.

#Review #Unified Generation #Multimodal Diffusion #Vision-Language Model #Image Editing #Video Editing #Interleaved Context #Progressive Training #Diffusion Transformer

2026년 1월 5일

[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

NextFlow는 단일 decoder-only autoregressive transformer 를 사용하여 멀티모달 이해 및 생성 능력을 통합하는 것을 목표로 합니다.

#Review #Multimodal AI #Decoder-only Transformer #Next-scale Prediction #Image Generation #Image Editing #Reinforcement Learning #Unified Modeling #TokenFlow

2026년 1월 5일

[논문리뷰] DreamOmni3: Scribble-based Editing and Generation

본 논문은 통합 생성 및 편집 모델에서 텍스트 프롬프트의 한계, 즉 사용자의 의도된 편집 위치 및 미세한 시각적 세부 사항을 정확히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Image Editing #Image Generation #Scribble-based Control #Multimodal AI #Diffusion Models #Data Synthesis #Human-Computer Interaction #Instruction-based Editing

2025년 12월 30일

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Image Editing #Selective Editing #Computational Efficiency #Training-Free #Region-Aware #Perceptual Similarity

2025년 12월 29일

[논문리뷰] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

본 논문은 최신 Latent Diffusion Models (LDMs)가 주로 픽셀 수준 재구성에 최적화된 저수준 Variational Autoencoder (VAE) 잠재 공간 을 사용하는 한계를 지적합니다.

#Review #Text-to-Image Generation #Image Editing #Representation Encoders #Latent Diffusion Models #Variational Autoencoder (VAE)#Semantic Reconstruction #Off-manifold Latents #DINOv2

2025년 12월 21일

[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Vision-Language Models #Diffusion Models #Region-aligned Guidance #Reinforcement Learning #Instruction-Visual Complexity #Attention Mechanism

2025년 12월 18일

[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.

#Review #Reward Models #Multimodal LLMs #Benchmark #Text-to-Image Generation #Image Editing #Interleaved Generation #Multimodal Reasoning #MLLM-as-a-judge

2025년 12월 18일

[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion Transformers

본 논문은 대규모 Diffusion Transformer(DiT) 기반 이미지 편집 모델 의 심각한 프라이버시 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Image Editing #Privacy Protection #Adversarial Attack #Attention Mechanism #Identity Preservation #Deepfake Defense #In-context Learning

2025년 12월 18일

[논문리뷰] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

기존 래스터 이미지 편집 시 발생하는 일관성 문제(semantic drift, geometric misalignment)를 해결하는 것이 목표입니다.

#Review #Image Editing #Diffusion Models #Layer Decomposition #RGBA Layers #Variational Autoencoder (VAE)#Multi-stage Training #Photoshop Documents (PSD)#Inherent Editability

2025년 12월 17일

[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

본 논문은 Masked Diffusion Models (MDMs)의 주요 비효율성, 즉 KV 캐싱 미지원 과 불필요한 마스크 토큰 처리 로 인한 느린 추론 속도 문제를 해결하고자 합니다. 특히, 멀티모달 태스크 전반에서 성능 저하 없이 효율성을 크게 향상시키는 새로운 모델링 프레임워크 를 제안하는 것이 목표입니다.

#Review #Discrete Diffusion Models #Multimodal Models #Sparse Parameterization #KV Caching #Token Truncation #Image Generation #Image Editing #Visual Reasoning

2025년 12월 16일

[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Diffusion Models #Image Generation #Video Generation #Image Editing #Video Editing #Latent Space Planning #Canvas Tokens #Information Transfer

2025년 12월 14일

[논문리뷰] LongCat-Image Technical Report

컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Diffusion Model #Multilingual Text Rendering #Photorealism #Efficiency #Open-Source

2025년 12월 8일

[논문리뷰] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

본 논문은 기존 단일 턴(single-turn) 이미지 편집 모델의 한계, 즉 내재된 무작위성과 숙고 부족으로 인한 낮은 명령어-추종(instruction-following) 성능을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Iterative Reasoning #Multimodal Large Language Model (MLLM)#Reinforcement Learning (RL)#Instruction Following #Critique-Refine-Repeat Cycle #Think-while-Edit

2025년 12월 7일

[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.

#Review #Image Editing #Benchmarking #Cognitive AI #Creativity #Multimodal AI #Knowledge-based Reasoning #Diffusion Models #MLLMs

2025년 12월 1일

[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

본 논문은 기존 참조 기반 이미지 생성 모델이 미세한 디테일에서 일관성을 유지하지 못하고, 텍스트 및 로고 영역에서 부정확하거나 흐릿하게 생성되는 문제를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Image Editing #Diffusion Models #Consistency Correction #Attention Mechanism #Reference-Guided #Agent Framework #Data Curation

2025년 12월 1일

[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

논문은 멀티모달 이해와 생성 태스크를 단일 프레임워크 내에서 원활하게 수행하는 TUNA라는 네이티브 통합 멀티모달 모델(UMM) 을 개발하는 것을 목표로 합니다. 기존 UMM의 분리된 또는 편향된 시각 표현 방식 으로 인한 한계를 극복하고, 이해와 생성 모두에 효과적인 통합된 연속 시각 표현 공간 을 구축하고자 합니다.

#Review #Unified Multimodal Models #Visual Representation #VAE #Flow Matching #Multimodal Understanding #Multimodal Generation #Image Editing #State-of-the-Art

2025년 12월 1일

[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.

#Review #Diffusion Transformer #Efficient Training #Multi-Modal Learning #Text-to-Image Generation #Image Editing #RLHF #Photorealistic Rendering

2025년 11월 30일

[논문리뷰] Vision Bridge Transformer at Scale

본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.

#Review #Vision Transformer #Bridge Models #Conditional Generation #Image Editing #Video Translation #Velocity Matching #Diffusion Models #Scalability

2025년 11월 30일

[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Editing #Reasoning-Enhanced AI #Multimodal Large Language Models #Diffusion Transformers #Thinking #Reflection #Iterative Refinement #Instruction Following

2025년 11월 30일

[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image Editing

이 논문은 확산 기반 이미지 편집 모델이 복잡한 사용자 지침(구성 관계, 맥락적 단서, 참조 표현 등)을 정확하게 해석하지 못하여 발생하는 의미론적 드리프트 및 편집 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Multimodal AI #Iterative Reasoning #Agentic AI #Reinforcement Learning #Diffusion Models #Vision-Language Models #Instruction Following

2025년 11월 27일

[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.

#Review #Image Generation #Video Models #Diffusion Models #Many-to-many #Unified Framework #Temporal Consistency #Image Editing #Positional Embedding

2025년 11월 25일

[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

이 논문은 AI 생성 콘텐츠(AIGC) 탐지에서 전체 이미지 분류에 집중하는 기존 방식의 한계를 극복하고, 확산 모델 기반의 로컬 편집 에 대한 동시적인 편집 영역 위치 파악(localization) 및 모델 귀속(attribution) 을 목표로 합니다.

#Review #AIGC Detection #Diffusion Models #Image Editing #Semantic Segmentation #Localization #Model Attribution #Benchmark #Multi-turn Editing

2025년 11월 25일

[논문리뷰] Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

본 논문은 합성된 래스터 이미지에서 레이어 수준의 편집이 불가능한 한계를 극복하고자 합니다. 기존 이미지 매팅 및 인페인팅 기반 방법들이 제어 가능성과 분할 정밀도에서 부족했던 문제를 해결하기 위해, 사용자 정의 바운딩 박스를 기반으로 미세 조정 가능하고 제어 가능한 다중 레이어 분리 를 달성하는 방법을 제안합니다.

#Review #Controllable Layer Decomposition #Diffusion Models #Multi-Layer Image Generation #Layer Separation #Bounding Box Guidance #Generative AI #Image Editing

2025년 11월 24일

[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

본 논문은 멀티모달 확산 모델에서 텍스트 및 시각 신호의 효과적인 정렬 문제를 해결하고자 합니다.

#Review #Multimodal Diffusion #Mixture of States (MoS)#Token-Level Routing #Dynamic Conditional Fusion #Text-to-Image Generation #Image Editing #Transformer Architecture

2025년 11월 19일

[논문리뷰] SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

기존 instruction-based image editing 모델들이 고정된 강도로 편집을 적용하여 개별 편집에 대한 정밀하고 연속적인 제어가 불가능하다는 한계를 해결하고자 합니다.

#Review #Image Editing #Continuous Control #Fine-Grained Control #Instruction-based #Low-Rank Adaptation #Disentanglement #Generative Models

2025년 11월 13일

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Reasoning-based AI #Benchmark #Multimodal Learning #Chain-of-Thought (CoT)#Dual-Reference Evaluation #Generative Models #Game AI

2025년 11월 9일

[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

본 연구는 기존 데이터셋의 한계, 특히 실제 적용에 필요한 체계적인 구조와 난이도 높은 시나리오의 부족으로 인해 이미지 생성 및 편집을 위한 통합 멀티모달 모델의 성능이 제약받는 문제를 해결하고자 합니다.

#Review #Image Generation #Image Editing #Multimodal AI #Dataset #Instruction Following #Taxonomy #GPT-40

2025년 9월 30일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Image Generation #Diffusion Transformer #VAE #Image Editing #Text-to-Image #Model Acceleration #Human Evaluation

2025년 9월 26일

[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation

본 논문은 기존 멀티모달 Masked Diffusion Model (MDM)의 한계를 극복하고, 이미지 이해, 객체 접지, 이미지 편집, 고해상도(1024px) 텍스트-투-이미지 생성 등 광범위한 멀티모달 태스크를 단일 프레임워크 내에서 처리할 수 있는 통합 MDM 인 Lavida-O를 제안하는 것을 목표로 합니다.

#Review #Multimodal AI #Masked Diffusion Models #Image Understanding #Image Generation #Image Editing #Object Grounding #ElasticMoT #Self-reflection

2025년 9월 25일

[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation

통합 멀티모달 모델에서 확산 디노이징과 자기회귀 디코딩의 반복적인 프로세스로 발생하는 상당한 계산 오버헤드 를 해결하는 것이 주 목표입니다. Hyper-Bagel 이라는 통합 가속 프레임워크를 제안하여 멀티모달 이해 및 생성 작업을 동시에 가속화하면서 원본 모델의 고품질 출력을 유지하고자 합니다.

#Review #Multimodal AI #Acceleration Framework #Speculative Decoding #Diffusion Distillation #Unified Models #Text-to-Image Generation #Image Editing #Computational Efficiency

2025년 9월 24일

[논문리뷰] LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

본 논문은 드래그 기반 이미지 편집에서 Multi-Modal Diffusion Transformers (MM-DiTs) 의 불안정성을 해결하고, 기존 방식의 암묵적 점 매칭 및 Test-Time Optimization (TTO) 또는 약화된 인버전 강도 의존성으로 인한 한계를 극복하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Multi-Modal Transformers #Drag-based Editing #Explicit Correspondence #Attention Control #Identity Preservation #Training-Free

2025년 9월 16일

[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models

논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Image Generation #Image Editing #Post-training #Self-supervised Learning #Reconstruction Alignment #Visual Embeddings

2025년 9월 10일

[논문리뷰] From Editor to Dense Geometry Estimator

본 논문은 기존의 텍스트-투-이미지(T2I) 생성 모델보다 Diffusion Transformer (DiT) 기반의 이미지 편집 모델이 단안 밀집 기하학 추정(depth 및 normal) 작업에 더 적합한 파운데이션 모델임을 증명하고, 이를 기반으로 FE2E 라는 새로운 프레임워크를 개발하여 제한된 훈련 데이터로도 뛰어난 제로샷 성능을 달성하는 것을 목표로 합니다.

#Review #Dense Geometry Estimation #Diffusion Transformer #Image Editing #Zero-shot Learning #Depth Estimation #Normal Estimation #Flow Matching #Logarithmic Quantization

2025년 9월 5일

[논문리뷰] Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

본 연구는 시각적 자기회귀(VAR) 모델 에서 추가 훈련 없이 프롬프트 기반 이미지 편집 기능을 구현하는 것을 목표로 합니다. 기존 VAR 모델의 편집 능력 한계를 극복하고, 원본 이미지의 관련 없는 세부 사항을 보존하면서 텍스트 프롬프트에 따라 타겟 편집을 정확하고 제어 가능하게 수행하는 방법론을 개발하고자 합니다.

#Review #Image Editing #Autoregressive Models #Noise Inversion #Text-to-Image #Gumbel-max Trick #Training-free #Location-aware Argmax Inversion

2025년 9월 3일

[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Continuous Latent Tokens #Flow Matching #Image Editing #Multimodal Learning #Transformer Architecture

2025년 8월 15일

[논문리뷰] Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

이 논문은 기존 flow-기반 이미지 편집 모델이 대규모 형상 변환(large-scale shape transformations) 시 목표 형상 변화를 달성하지 못하거나 비-타겟 영역을 의도치 않게 변경하는 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Shape Transformation #Rectified Flow #Trajectory Divergence Map #Region Control #Generative Models #Diffusion Models

2025년 8월 12일

[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

본 논문은 이미지 이해, 텍스트-투-이미지 생성, 이미지 편집 기능을 단일 아키텍처 내에서 통합하는 1.5억 개 파라미터 의 자기회귀 모델 인 Skywork UniPic 을 소개합니다.

#Review #Autoregressive Models #Multimodal AI #Image Generation #Image Editing #Visual Understanding #Unified Architecture #Parameter Efficiency

2025년 8월 6일

[논문리뷰] Qwen-Image Technical Report

본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Text Rendering #Multimodal Diffusion Transformer #Curriculum Learning #Reinforcement Learning #Foundation Model

2025년 8월 5일

[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

본 연구는 Ming-Omni 의 업그레이드 버전인 Ming-Flash-Omni 를 제안하여, 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 시각, 음성, 언어 전반에 걸쳐 더욱 강력하고 통합된 멀티모달 지능을 구현하는 것을 목표로 합니다.

#Review #Multimodal AI #Sparse MoE #Unified Architecture #Perception #Generation #Contextual ASR #Image Editing #Generative Segmentation

2025년 10월 30일

[논문리뷰] Group Relative Attention Guidance for Image Editing

본 논문은 Diffusion-in-Transformer ( DiT ) 모델 기반 이미지 편집 방법론이 편집 강도 제어에 있어 효과적인 수단을 결여하고 있어 맞춤형 결과 도출에 한계가 있음을 지적합니다.

#Review #Image Editing #Diffusion Transformers #Attention Mechanism #Guidance Mechanism #Controllability #Fine-grained Control #GRAG

2025년 10월 29일

[논문리뷰] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

본 논문은 기존의 선도적인 통합 멀티모달 모델(UMM)들이 상당한 계산 자원과 학습 비용을 요구한다는 문제에 주목합니다.

#Review #Unified Multimodal Models #Double Fusion #Lightweight AI #Text-to-Image Generation #Image Editing #Model Architecture #Efficient Training #Cross-modal Interaction

2025년 10월 28일

[논문리뷰] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

이 논문은 기존 개인화된 생성 모델의 상호작용적 공간 제어 부족 과 다중 피사체 합성의 확장성 한계 를 해결하고자 합니다.

#Review #Text-to-Image Generation #Personalization #Diffusion Models #Interactive Control #Multi-Subject Composition #Layered Canvas #Spatial Control #Image Editing

2025년 10월 24일

[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Reinforcement Learning #MLLM #Policy Optimization #Finetuning #Reward Modeling #Human Alignment

2025년 10월 21일

[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?

이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.

#Review #Image Editing #Physical Realism #Benchmark #VLM-as-a-Judge #Synthetic Data #Physics-Aware AI #Diffusion Models #Evaluation Metrics

2025년 10월 21일

[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

본 논문은 기존의 훈련 없이(training-free) 텍스트 기반 시각 편집 방법론이 겪는 한계, 즉 강한 편집 강도를 유지하면서도 원본과의 일관성을 보존하기 어렵다는 문제를 해결하고자 합니다.

#Review #Image Editing #Video Editing #Diffusion Transformer #Attention Control #Training-free #Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation

2025년 10월 21일

[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation

본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.

#Review #Image Generation #Image Editing #Autoregressive Model #Diffusion Model #Reinforcement Learning #Multimodal AI #Foundation Model #Open-source

2025년 10월 20일

[논문리뷰] Learning an Image Editing Model without Image Editing Pairs

본 논문은 대규모 입력-편집 쌍 데이터 에 대한 의존성을 제거하여 이미지 편집 모델 훈련의 주요 병목 현상을 해결하고자 합니다. 특히, 합성 데이터의 아티팩트 전파 문제를 피하고, 쌍 데이터 없이도 자연어 지침에 따라 이미지를 편집하는 모델을 학습하는 새로운 훈련 패러다임을 제안합니다.

#Review #Image Editing #Diffusion Models #Vision-Language Models (VLMs)#No-Pair Training #Few-step Generation #Distribution Matching #Gradient-based Optimization

2025년 10월 17일

[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image Generation

기존 이미지 생성 모델들이 이미지와 텍스트에 대해 분리된 인코더를 사용하는 한계를 극복하고, 크로스-모달 추론 및 지식 전이 능력을 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Model #Unified Encoder #Image Generation #Diffusion Models #Multimodal Learning #Text-to-Image #Image Editing #Zero-shot Learning

2025년 10월 15일

[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance

컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.

#Review #Visual Editing #MLLM Guidance #Diffusion Models #Image Editing #Video Editing #Unified Framework #Multimodal AI #Instruction-based Editing

2025년 10월 10일

[논문리뷰] SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

이 논문은 대규모 텍스트-투-이미지 확산 모델의 이미지 편집 시 미세하고 연속적인 제어 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Diffusion Models #Sparse Autoencoder (SAE)#Text-to-Image #Disentangled Control #Continuous Control #Token-level Manipulation #Text Embeddings

2025년 10월 7일

[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured Visuals

본 연구는 최신 시각 생성 모델들이 차트, 다이어그램, 수학 도형과 같은 구조화된 시각 자료 생성 및 편집에서 보이는 한계를 해결하고자 합니다. 이러한 자료들은 구성 계획 , 텍스트 렌더링 , 멀티모달 추론 을 통한 사실적 정확성 을 요구하며, 이 분야에 대한 체계적인 탐구가 부족하다는 문제를 인식했습니다.

#Review #Structured Visuals #Image Generation #Image Editing #Multimodal Reasoning #Factual Fidelity #Chain-of-Thought #Evaluation Benchmark #Diffusion Models

2025년 10월 7일

[논문리뷰] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

본 논문은 기존 이미지 편집 모델의 물리적 일관성 부족 문제를 해결하고, 특히 월드 시뮬레이션 관련 작업에서 편집된 객체가 장면의 맥락과 물리적으로 일관되게 유지되도록 하는 것을 목표로 합니다.

#Review #Image Editing #Video Generation #Temporal Reasoning #World Simulation #Physical Consistency #Diffusion Models #Generative Models

2025년 10월 7일