[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

2026년 3월 26일수정: 2026년 3월 26일

링크: 논문 PDF로 바로 열기

저자: Yufeng Yang, Xianfang Zeng, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Real-World Degradations : 실제 환경에서 발생하는 이미지 품질 저하 현상으로, Blur, Rain, Noise, Low-Light, Moiré Patterns, Haze, Compression Artifacts, Reflection, Flare 등 다양하고 복합적인 형태를 포함한다.
All-in-One Image Restoration : 단일 모델 또는 프레임워크를 사용하여 여러 유형의 이미지 Degradation을 동시에 처리하는 방법론.
Large-Scale Image Editing Models : 방대한 양의 데이터로 학습되어 강력한 이미지 생성 및 편집 능력을 갖춘 모델로, 종종 Image Restoration task에서 우수한 Generalization 능력을 보인다. (예: Nano Banana Pro, GPT-Image-1.5)
RealIR-Bench : 저자들이 제안한 새로운 Benchmark Dataset으로, 464개의 실제 Degradation이 적용된 Image로 구성되며, Degradation Removal과 Content Consistency preservation에 중점을 둔 평가 Metric을 사용한다.
Restoration Score (RS) : Degradation Removal 능력을 측정하는 Metric으로, VLM(Vision-Language Model) 기반 Evaluator를 활용하여 Degradation severity 개선 정도를 정량화한다.
LPIPS (Learned Perceptual Image Patch Similarity) : 복원된 이미지와 Degradation된 원본 이미지 간의 Perceptual Similarity를 측정하는 Metric으로, Content Consistency preservation 능력을 평가한다.
Final Score (FS) : RS와 LPIPS를 결합하여 Restoration Quality와 Content Consistency preservation을 종합적으로 반영하는 최종 Metric.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

Real-world Degradation 상황에서의 Image Restoration은 자율 주행(Autonomous Driving) 및 객체 탐지(Object Detection)와 같은 Downstream Task에 필수적이다. 그러나 기존의 Restoration Model들은 제한적인 Training Data의 Scale 및 Distribution으로 인해 Real-world Scenario에 대한 Generalization 성능이 낮다는 한계를 갖는다. All-in-One Restoration 방법론들 역시 제한된 합성 Degradation Distribution에 의존하여 Real-world의 복잡하고 다양한 Degradation에 취약하다.

최근 Large-scale Image Editing Model들이 Restoration Task에서 뛰어난 Generalization 능력을 보였지만, 대부분 Closed-source 데이터와 컴퓨팅 자원으로 학습되어 연구 커뮤니티에서 재현 및 활용이 어렵다. 기존 Restoration Dataset들은 좁은 Degradation Distribution에 초점을 맞추고 있으며, Reference-based Metric에만 의존하는 평가 방식은 Perceptual Quality, 다양한 Degradation에 대한 Robustness, Detail Consistency 등을 반영하지 못한다. 저자들은 이러한 격차를 해소하기 위해 합성(Synthetic)과 실제(Real-world) Degradation의 Domain Gap을 줄이고, Open-source 모델의 Restoration 성능을 향상시키며, Real-world Degradation에 대한 신뢰성 있는 평가 프로토콜을 제시할 필요성을 제기한다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 RealRestorer라는 Open-source Real-world Image Restoration 모델을 개발하였다. 이 모델은 Step1X-Edit 을 Base Model로 사용하며, Diffusion in Transformer (DiT) Backbone과 QwenVL Text Encoder를 활용하여 Semantic 정보를 Denoising Pathway에 주입한다. 모델은 Flux-VAE 를 통해 이미지를 Latent Space로 Encoding하며, VAE와 Text Encoder를 Freeze하고 DiT만 Fine-tuning한다.

핵심 방법론은 두 단계의 Training Strategy로 구성된다:

Transfer-training Stage : 약 100만 개 이상의 Synthetic Paired Data를 사용하여 Image Editing Model에서 Image Restoration으로 High-level Knowledge와 Prior를 Transfer한다. 이 단계에서는 1024x1024 의 High-resolution으로 Training을 진행하며, Learning Rate는 1e-5 로 고정한다. 이 단계를 통해 모델은 9가지 Degradation 유형에 대한 기본적인 Restoration 능력을 습득한다.

Supervised Fine-tuning Stage : Real-world Degradation Data를 통합하여 Restoration Fidelity를 더욱 향상시키고 Real-world Degradation Scenario에서의 Generalization 능력을 개선한다. 이 단계에서는 Cosine Annealing Learning Rate Schedule을 적용하며, Progressively-Mixed Training Strategy 를 통해 Synthetic Data의 일부를 계속 포함시켜 Overfitting을 방지하고 Cross-task Robustness를 유지한다. Figure 4는 Synthetic Data만으로는 성능 하락이 발생하나, Real-world Data를 통한 Supervised Fine-tuning이 성능과 Generalization을 급격히 향상시킴을 보여준다.

저자들은 또한 RealIR-Bench 라는 새로운 Benchmark를 제안한다. 이 Benchmark는 9가지 Degradation Type에 걸쳐 인터넷에서 수집된 464개 의 Non-reference Real-world Degraded Image로 구성된다. 평가 Metric으로는 Degradation 제거 능력을 측정하는 Restoration Score (RS) 와 Content Consistency 보존을 측정하는 LPIPS (LPS) 를 사용하며, 이들을 결합한 Final Score (FS) 를 통해 종합적인 성능을 평가한다. RS는 Qwen3-VL-8B-Instruct VLM을 Evaluator로 활용하여 Degradation Severity 개선도를 측정한다.

실험 결과, RealRestorer는 Open-source 방법론들 중에서 State-of-the-Art (SOTA) 성능을 달성했으며, Closed-source 시스템인 Nano Banana Pro 와 GPT-Image-1.5 에 필적하는 경쟁력을 보였다. 특히, RealIR-Bench 의 9가지 Task 중 Deblurring과 Low-light Enhancement에서 1위를 차지했으며, Moiré Pattern Removal에서는 2위를 기록했다 [Table 1, Table 2]. Overall Average FS에서 RealRestorer는 Open-source 모델 중 1위(0.146)를 기록하며, Nano Banana Pro(0.153)와의 격차를 0.007 점으로 좁혔다 [Table 2]. FoundIR Dataset에 대한 추가 평가에서도 RealRestorer는 7개 Degradation 중 5개에서 최고의 PSNR 및 SSIM 성능을 달성했다 [Table 3].

은 RealRestorer가 다른 SOTA Image Editing 모델 대비 시각적으로 더 깨끗하고 Consistent한 복원 결과를 생성함을 보여준다. 또한, Snow Removal 및 Old Photo Restoration과 같은 Unseen Task에 대해서도 강력한 Zero-shot Generalization 능력을 입증했다.

4. Conclusion & Impact (결론 및 시사점)

본 논문은 복잡한 Real-world Image Restoration을 위한 강력한 Open-source Image Editing Model인 RealRestorer 를 제안한다. 저자들은 Synthetic-to-Real Domain Gap을 줄이기 위해 포괄적인 Data Generation Pipeline과 Synthetic 및 Real-to-clean Pair를 결합한 Two-stage Progressively Mixed Training Strategy를 도입했다. 또한, Real-world Restoration을 위한 Non-reference Benchmark인 RealIR-Bench 와 VLM-based Evaluation Framework를 제시했다.

RealRestorer는 광범위한 실험을 통해 9가지 Restoration Task에서 Open-source SOTA 성능을 달성했으며, 선도적인 Closed-source Commercial System들과 매우 유사한 결과를 보였다. 또한, Unseen Degradation에 대해서도 강력한 Zero-shot Generalization 능력을 입증했다. 이 연구는 Open-source 모델의 성능을 Closed-source 시스템 수준으로 끌어올려, Real-world Image Restoration 분야의 연구 발전에 크게 기여할 것으로 기대된다. 저자들은 모델, 데이터 합성 파이프라인, 그리고 Benchmark를 공개하여 향후 연구를 촉진할 예정이다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] PixelSmile: Toward Fine-Grained Facial Expression Editing
현재글 : [논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
다음글 [논문리뷰] Representation Alignment for Just Image Transformers is not Easier than You Think