[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

2026년 5월 21일수정: 2026년 5월 21일

링크: 논문 PDF로 바로 열기

저자: Sixiang Chen, Zhaohu Xing, Tian Ye, Xinyu Geng, Yunlong Lin, Jianyu Lai, Xuanhua He, Fuxiang Zhai, Jialin Gao, Lei Zhu

1. Key Terms & Definitions (핵심 용어 및 정의)

Tool-Orchestrated Visual Trajectory: 에이전트가 외부 툴(검색, 참조 이미지 선택 등)을 사용하여 이미지를 생성하는 과정을 일련의 의사결정 경로로 모델링한 방식입니다.
Prompt-Reference Program (z=(g, R)): 최종 이미지를 생성하기 위해 에이전트가 생성한 출력물로, 타겟 생성 프롬프트(g)와 선택된 참조 이미지 집합(R)으로 구성된 실행 가능한 프로그램입니다.
Visual Experience Distillation (SDL): 여러 생성 경로를 비교하여 더 나은 경로의 시사점을 추출하고, 이를 privileged teacher branch를 통해 student policy에 token-level로 주입하여 학습을 고도화하는 기법입니다.
GenEvolve-Bench: 모델의 지식 기반 외부 grounding 능력과 고품질 이미지 생성 제어 능력을 평가하기 위한 전용 벤치마크 데이터셋입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다. 기존의 연구들은 외부 정보 검색이나 단편적인 프롬프트 수정에만 집중하거나, 에이전트의 의사결정을 image-level의 스칼라 보상만으로 평가하여 구체적인 개선 방향을 제시하지 못한다는 한계가 있습니다. 이를 해결하기 위해 저자들은 이미지 생성 프로세스 전체를 learnable object로 설정하고, 툴 사용, 지식 활성화, 참조 선택 및 프롬프트 구성을 통합적으로 학습시키는 프레임워크를 제안합니다 [Figure 2].

Figure 2: 데이터 구축 및 벤치마크 개요

Figure 2 — 데이터 구축 및 벤치마크 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 에이전트가 툴을 사용해 생성한 여러 경로(trajectory)를 비교하고, best-worst 차이를 Structured Visual Experience로 변환하여 학습에 활용하는 GenEvolve 프레임워크를 제안합니다 [Figure 3]. 이 방식은 GRPO(Group-Relative Policy Optimization)를 통해 trajectory-level에서 성능을 최적화하고, Visual Experience Distillation을 통해 token-level에서 밀도 높은 지도 신호를 제공합니다. 실험 결과, GenEvolve는 GenEvolve-Bench에서 기존 agentic baseline 대비 더 높은 KScore를 기록하였으며, 특히 Factual Grounding이 중요한 WISE 벤치마크에서도 우수한 일반화 성능을 입증했습니다 [Table 1], [Table 2]. 예를 들어, GenEvolve와 Nano Banana Pro를 결합했을 때, Raw 모델보다 Faithfulness 및 Visual Correctness 면에서 현저한 성능 향상을 보였습니다 [Table 1].

Figure 3: GenEvolve 프레임워크 구조

Figure 3 — GenEvolve 프레임워크 구조

4. Conclusion & Impact (결론 및 시사점)

본 논문은 이미지 생성 에이전트의 학습을 단순한 보상 기반의 강화학습에서 구조화된 경험을 활용한 self-evolution 패러다임으로 전환했습니다. 이 연구가 제안하는 Visual Experience Distillation은 에이전트가 생성 과정에서의 의사결정 이유를 체계적으로 학습하게 함으로써, 단순히 고품질 이미지를 생성하는 것을 넘어 더 정교하고 grounded된 시각적 결과물을 만드는 데 기여합니다. 본 프레임워크는 향후 에이전트 기반 생성 모델의 상호운용성과 확장성을 높이는 데 중요한 기술적 지표를 제공할 것으로 기대됩니다.

Figure 1: GenEvolve 성능 개요

Figure 1 — GenEvolve 성능 개요

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
현재글 : [논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
다음글 [논문리뷰] KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving