#Instruction-based Editing

4개의 포스트

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] DreamOmni3: Scribble-based Editing and Generation

본 논문은 통합 생성 및 편집 모델에서 텍스트 프롬프트의 한계, 즉 사용자의 의도된 편집 위치 및 미세한 시각적 세부 사항을 정확히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Image Editing #Image Generation #Scribble-based Control #Multimodal AI #Diffusion Models #Data Synthesis #Human-Computer Interaction #Instruction-based Editing

2025년 12월 30일

[논문리뷰] Region-Constraint In-Context Generation for Instructional Video Editing

본 논문은 텍스트 지시만으로 비디오 콘텐츠를 정밀하게 수정 하는 인-컨텍스트 비디오 편집 과정에서 발생하는 문제를 해결하고자 합니다. 구체적으로, 편집 영역이 불정확하고 노이즈 제거 과정 중 편집 및 비편집 영역 간의 토큰 간섭이 발생하는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Editing #In-Context Learning #Diffusion Models #Region-Constraint #Instruction-based Editing #Latent Space Regularization #Attention Space Regularization #Large-scale Dataset

2025년 12월 22일

[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance

컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.

#Review #Visual Editing #MLLM Guidance #Diffusion Models #Image Editing #Video Editing #Unified Framework #Multimodal AI #Instruction-based Editing

2025년 10월 10일