본문으로 건너뛰기

[논문리뷰] CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

링크: 논문 PDF로 바로 열기

저자: Zi-Han Wang, Lam Nguyen, et al. 키워: Machine Creativity, Code Generation, Benchmarking, Combinatorial Creativity, Exploratory Creativity, Evolutionary Algorithms, Representation Engineering, LLMs

1. Key Terms & Definitions

  • CreativeBench : 머신 크리에이티비티(machine creativity)를 코드 생성(code generation) 영역에서 평가하기 위해 제안된 벤치마크입니다.
  • Combinatorial Creativity : 익숙한 개념들을 익숙하지 않은 방식으로 결합하여 새로운 것을 만들어내는 창의성 유형입니다.
  • Exploratory Creativity : 구조화된 개념 공간(conceptual space)을 탐색하여 새로운 가능성을 발견하는 창의성 유형입니다.
  • Quality : 생성된 솔루션의 정확성을 측정하며, Pass@1 메트릭으로 인스턴스화됩니다.
  • Novelty : 생성된 솔루션이 이전에 관찰되었거나(observed) 기준선(baseline) 솔루션과 얼마나 다른지를 측정하며, 임베딩(embedding) 거리와 N-그램(n-gram) 거리의 조합으로 정의됩니다.
  • EvoRePE (Evolutionary Representation Engineering) : 진화적 탐색(evolutionary search)을 통해 발견된 창의적 변화를 추상적인 스티어링 벡터(steering vector)로 추출하여 추론 시간(inference-time)에 모델의 잠재 공간(latent space)을 조작함으로써 머신 크리에이티비티를 향상시키는 플러그-앤-플레이(plug-and-play) 전략입니다.
  • Convergence-by-Scaling : 모델의 스케일이 커질수록 기능적 정확성(functional correctness)은 향상되지만, 다양성(divergence) 또는 참신함(novelty)은 감소하거나 정체되는 현상입니다.

2. Motivation & Problem Statement

Large Language Models(LLMs)의 성공은 인터넷 규모의 데이터 확장에 힘입었지만, 현재 고품질 데이터의 포화로 인해 모델 인텔리전스(model intelligence)의 추가 스케일링이 한계에 부딪혔습니다. 이에 따라 지속적으로 새롭고 학습 가능한(learnable) 아티팩트를 생성할 수 있는 진화 시스템(evolutionary systems)에 대한 관심이 다시 높아지고 있습니다. 그러나 이러한 시스템의 발전은 머신 크리에이티비티를 엄격하고 정량적으로 평가할 벤치마크의 부족으로 저해되고 있습니다. 기존 평가는 (1) 크리에이티비티를 환각(hallucination)과 객관적으로 구분하기 어렵고, (2) 진정으로 창의적인 행동을 유도하기에는 작업 복잡성(task complexity)이 부족하며, (3) 진화 시스템에 대한 근거 있고 자동화 가능한 정량적 메트릭이 부족하다는 한계를 가집니다. 본 연구는 보든(Boden)의 인지 창의성 프레임워크(cognitive creativity framework)를 채택하여 이러한 격차를 해소하고자 합니다.

3. Method & Key Results

저자들은 CreativeBench 를 도입하여 코드 생성 시스템의 머신 크리에이티비티를 평가합니다. 이는 Combinatorial CreativityExploratory Creativity 에 초점을 맞춘 CreativeBench-ComboCreativeBench-Explore 두 가지 하위 세트로 구성됩니다. 벤치마크는 리버스 엔지니어링(reverse engineering) 및 셀프-플레이(self-play)를 활용하는 자동화된 파이프라인을 통해 구축됩니다

Figure 2: Overview of our framework. (Left) We introduce CreativeBench, built via an automated reverse engineering and self-play pipeline. (Middle) We evaluate evolutionary systems using a unified Creativity Score, defined as the Quality (Pass@1) and Novelty (embedding + n-gram distance). (Right) Based on our analysis, we propose the EvoRePE strategy to steer models toward more creative solutions at inference time. Figure 2: Overview of our framework. (Left) We introduce CreativeBench, built via an automated reverse engineering and self-play pipeline. (Middle) We evaluate evolutionary systems using a unified Creativity Score, defined as the Quality (Pass@1) and Novelty (embedding + n-gram distance). (Right) Based on our analysis, we propose the EvoRePE strategy to steer models toward more creative solutions at inference time.

. 크리에이티비티는 Quality (Pass@1)와 Novelty (임베딩 및 N-그램 거리)의 곱으로 정의되는 통합 메트릭을 사용하여 객관적으로 평가됩니다. 수동 검증(manual verification) 결과, 데이터 유효성(data validity)은 89.1% 였으며, 자동화된 크리에이티비티 순위와 인간 전문가 순위 간의 스피어만 상관계수(Spearman's ρ)는 0.78 로 높은 일관성을 보였습니다.

State-of-the-art 모델들에 대한 분석은 다음과 같은 주요 결과를 도출했습니다:

  1. CreativeBenchGemini-3-Pro 조차 양쪽 하위 세트에서 Pass@160% 미만으로 나타나 상당한 난이도를 보여주었습니다 [Figure 3].
  2. Scaling Favors Combination over Exploration : 모델 스케일링(scaling)은 Combinatorial Creativity 를 크게 향상시키지만, Exploratory Creativity 에는 제한적인 이득을 가져옵니다. Gemini-3-Pro 는 Combinatorial Creativity에서 개선을 보였으나 Exploratory Creativity에서는 약간 감소하는 경향을 나타냈습니다.
  3. Convergence-by-Scaling : Qwen2.5-7B-Instruct 모델 제품군에 대한 스케일링 분석 결과, 모델 크기가 커질수록 Pass@1 은 꾸준히 개선되지만, Novelty 는 감소하거나 정체되었습니다

Figure 4: Scaling analysis of the Qwen2.5-Instruct model family on CreativeBench. Figure 4: Scaling analysis of the Qwen2.5-Instruct model family on CreativeBench.

. 이는 전반적인 Creativity Score 가 주로 기능적 이득(functional gains)에 의해 상승함을 시사합니다. 4. Reasoning Helps Exploration, Not Combinatorial Creativity : 추론 모드(reasoning mode)는 Exploratory Creativity 작업에서 성능을 크게 향상시켰지만, Combinatorial Creativity 작업에서는 거의 이점이 없었습니다 [Figure 5].

저자들은 이러한 인사이트를 바탕으로 EvoRePE 를 제안합니다. EvoRePEQwen2.5-7B-Instruct 에서 AlphaEvolve 와 결합 시 CreativeBench-ComboCreativity Score0.174 에서 0.193 으로, CreativeBench-Explore0.0146 에서 0.0148 으로 향상시키는 등 일관된 성능 향상을 보였습니다 [Table 3]. 이는 진화 최적화(evolutionary optimization)의 이점을 모델의 활성화(activations) 내부로 부분적으로 내재화할 수 있음을 시사합니다.

4. Conclusion & Impact

본 논문은 보든의 인지 프레임워크에 기반한 CreativeBench 를 통해 진화 시스템의 Combinatorial CreativityExploratory Creativity 를 평가하는 벤치마크를 성공적으로 도입했습니다. CreativeBench 를 활용한 체계적인 분석은 최신 파운데이션 모델(foundation models)에서 Convergence-by-Scaling 이라는 독특한 트레이드오프를 발견했습니다. 이는 모델 스케일이 증가할수록 기능적 정확성은 향상되지만, 다양성은 억제된다는 점을 의미합니다. 또한, 고급 추론(advanced reasoning) 기능이 Combinatorial Creativity 보다는 Exploratory Creativity 에 더 크게 기여함을 밝혔습니다. 이러한 발견을 활용하기 위해, 저자들은 진화적 탐색 패턴을 잠재 공간 스티어링(latent-space steering)으로 내재화하여 머신 크리에이티비티를 일관되게 향상시키는 플러그-앤-플레이 방식의 EvoRePE 전략을 제안했습니다. 이 연구는 머신 크리에이티비티에 대한 이해와 향상에 기여하며, 기능적 정확성 중심의 평가를 넘어선 새로운 연구 방향을 제시합니다.


⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글