[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

2026년 3월 30일수정: 2026년 3월 30일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Kaituo Feng, Manyuan Zhang, Shawn Chen, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

Gen-Searcher : 지식 집약적인 프롬프트를 처리하기 위해 다중 단계 웹 검색과 추론을 수행하는 멀티모달 검색 에이전트입니다.
KnowGen : 실제 지식 기반의 복잡한 이미지 생성 능력을 평가하기 위해 제안된 새로운 벤치마크 데이터셋입니다.
K-Score : 이미지 생성의 충실도(Faithfulness), 시각적 정확성(Visual Correctness), 텍스트 정확도(Text Accuracy), 심미성(Aesthetics)을 종합적으로 평가하는 지표입니다.
GRPO (Group Relative Policy Optimization) : 에이전트의 도구 호출 및 검색 전략을 최적화하기 위해 사용된 강화학습 알고리즘입니다.
Dual Reward Feedback : 이미지 기반 보상과 텍스트 기반 보상을 결합하여 에이전트의 검색 및 추론 과정을 안정적으로 학습시키는 설계 방식입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다. 기존의 RAG 기반 접근 방식은 정적 데이터베이스의 제한된 범위와 단일 단계 검색의 한계로 인해 복잡한 다중 단계 추론이 요구되는 상황을 해결하기 어렵습니다. 따라서 본 연구에서는 웹상의 실시간 정보를 활용하여 grounded 된 이미지를 생성하는 능동적인 멀티모달 검색 에이전트 프레임워크를 제안합니다.

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 연구에서는 먼저 다중 단계 검색이 필요한 고품질의 데이터를 구축하기 위해 Gemini 3 Pro 와 검색 도구를 활용한 파이프라인을 설계했습니다. 이를 통해 Gen-Searcher-SFT-10k 와 Gen-Searcher-RL-6k 라는 데이터셋을 확보하였으며, 이를 기반으로 Qwen3-VL-8B-Instruct 를 백본으로 하는 모델을 Supervised Fine-Tuning(SFT)과 Agentic Reinforcement Learning(RL) 2단계로 학습시켰습니다. 모델은 검색, 브라우징, 이미지 검색 도구를 사용하여 정보를 수집하고 grounded 프롬프트를 생성하며, GRPO 를 통해 이 과정을 최적화합니다. 실험 결과, Gen-Searcher 는 KnowGen 벤치마크에서 Qwen-Image 베이스라인 대비 약 16점 이상의 K-Score 향상을 달성했습니다. 특히, 제안된 에이전트는 다른 생성 모델(Seedream 4.5, Nano Banana Pro 등)에 적용했을 때도 강력한 전이 학습(Transferability) 성능을 입증하며 일관된 성능 개선을 보여주었습니다

Table 1

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 이미지 생성 분야에 능동적인 에이전트 구조를 도입하여, 고정된 모델 지식의 한계를 극복하는 새로운 표준을 제시했습니다. 제안된 프레임워크는 실시간 웹 정보와 시각적 참조를 완벽하게 통합함으로써, 지식 집약적인 실세계 시나리오에서 훨씬 정확하고 설득력 있는 이미지를 생성할 수 있습니다. 본 연구는 향후 범용적인 멀티모달 검색 에이전트 연구를 위한 오픈 파운데이션으로서 학계와 산업계에 중요한 기여를 할 것으로 기대됩니다.

Figure 3

Figure 5

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing
현재글 : [논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation
다음글 [논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

메타데이터

댓글

관련 포스트

Review 의 다른글