[논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

2026년 4월 6일수정: 2026년 4월 6일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Unified Multimodal Models : 이해(understanding)와 생성(generation) 능력을 단일 Transformer 백본 안에서 공유하여 처리하는 모델 아키텍처.
Latent Representation Bridge : 생성된 VAE latent를 별도의 decoding/encoding 단계 없이 reasoning 컨텍스트에 직접 연결하여, 하위 작업의 피드백이 생성 과정으로 흐를 수 있게 하는 구조적 메커니즘.
Interleaved GRPO (Group Relative Policy Optimization) : 텍스트 추론과 이미지 생성 경로를 하나의 시퀀스 내에서 결합하고, 최종 답변의 정확도 보상(answer-correctness reward)을 통해 두 능력을 공동 최적화(joint optimization)하는 강화학습 기법.
MMD-Bench : 실세계의 다양한 이미지 훼손(corruption) 유형을 3단계 강도로 표준화하여 6개의 멀티모달 벤치마크에 적용한 데이터셋.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 실세계의 이미지 훼손(blur, noise 등) 상황에서 Unified Multimodal Models가 생성 능력을 보유하고 있음에도 불구하고, 이를 활용하지 못하는 기능적 단절(functional disconnect) 문제를 해결한다. 기존 모델들은 이해와 생성 경로가 구조적으로 분리되어 있어, 모델이 훼손된 이미지를 처리할 때 생성 경로를 추론의 도구로 활용하지 못하고 성능이 크게 저하된다 [Figure 1]. 이러한 한계는 기존의 decode-reencode 경로가 gradient 흐름을 차단하여 answer-level 피드백이 생성 과정에 영향을 줄 수 없기 때문에 발생한다. 결과적으로 모델은 훼손된 정보에 대해 보상할 visual structure를 스스로 생성하거나 활용하는 방법을 학습하지 못하는 구조적 한계에 봉착한다.

Figure 1: 기존 모델의 성능 저하 사례

Figure 1 — 기존 모델의 성능 저하 사례

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 CLEAR (Comprehension via Latent Enhancement and Adaptive Reasoning) 프레임워크를 제안하며, 이는 3단계의 점진적 과정을 통해 생성과 이해를 연결한다. 첫째, Behavioral Initialization 단계에서는 훼손된 이미지에 대해 생성 후 답변하는(generate-then-answer) 패턴을 학습시킨다. 둘째, Latent Representation Bridge 를 도입하여 생성된 VAE latent를 직접 reasoning 컨텍스트에 투입함으로써 [Figure 3], frozen decoder/encoder 병목을 제거하고 differentiable한 연결을 확보한다. 셋째, Interleaved GRPO 를 통해 텍스트 추론과 시각적 생성을 공유된 reward를 바탕으로 end-to-end로 최적화한다. 실험 결과, CLEAR-RL 은 Bagel 베이스라인 대비 평균 5.11점(8.5% relative)의 성능 향상을 기록했으며 [Table 1], 특히 'Hard' 훼손 환경에서 모델이 입력 이미지의 상태에 따라 생성 트리거 여부를 자율적으로 결정하는 적응형 정책을 성공적으로 확보함을 입증했다 [Figure 4]. 또한, pixel-level의 reconstruction supervision 없이 task-driven optimization만 수행했음에도 intermediate visual state의 지각적 품질(perceptual quality)이 개선되는 결과를 보였다 [Table 4].

Figure 3: Latent Representation Bridge 구조

Figure 3 — Latent Representation Bridge 구조

4. Conclusion & Impact (결론 및 시사점)

본 논문은 Unified Multimodal Models의 이해와 생성 능력을 단절시키는 구조적 병목을 해결함으로써, 훼손된 시각적 데이터에 대한 로봇/자율주행 시스템 등의 추론 능력을 대폭 강화했다. 특히 명시적인 재구성(reconstruction) supervision 없이 답변 정확도 보상만으로도 고품질의 중간 시각 상태를 생성할 수 있음을 보임으로써, 시각적 품질과 작업 최적화의 자연스러운 정렬을 확인했다는 점에서 학술적 가치가 크다. 본 연구는 실세계의 불안정한 데이터 환경에서 멀티모달 모델의 실질적인 로버스트성(robustness)을 높이는 핵심적인 프레임워크를 제공하여 산업계의 실용적 배포에 기여할 것으로 기대된다.

Figure 2: CLEAR 프레임워크 개요

Figure 2 — CLEAR 프레임워크 개요

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AvatarPointillist: AutoRegressive 4D Gaussian Avatarization
현재글 : [논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
다음글 [논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?