[논문리뷰] POEMetric: The Last Stanza of Humanity

2026년 4월 6일수정: 2026년 4월 6일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

저자: Bingru Li, Han Wang, Hazel Wilkinson, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

POEMetric : LLM의 시 창작 능력을 평가하기 위해 고안된 포괄적인 평가 프레임워크로, instruction-following, 창의성, 감정적 공명, 일반적인 시적 품질 등을 다차원적으로 평가함.
LLM-as-a-judge : 특정 LLM(본 논문에서는 Gemini-2.5-Pro )을 판사로 사용하여 다른 LLM이 생성한 시를 평가하는 방법론으로, 인간 전문가의 평가와 검증을 통해 그 신뢰도를 확보함.
Rule-based Evaluation : 고안된 알고리즘을 사용하여 시의 운율(meter)과 압운(rhyme) 패턴을 자동 탐지함으로써 정량적인 형태 정확도를 측정하는 방식.
MATTR(Moving Average Type-Token Ratio) : 텍스트의 어휘적 다양성(lexical diversity)을 측정하기 위해 사용되는 지표.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 현존하는 LLM이 시 창작에서 문법적 완성도는 높으나, 인간 시인만이 가진 예술적 깊이와 창의성을 모방하는 데에는 한계가 있다는 문제의식에서 출발한다. 기존 연구들은 주로 압운이나 운율 같은 형식적 정확도에 치중하여 평가하였으나, 시의 본질인 감정적 울림, 고유한 문체, 문학적 장치 활용 능력 등은 충분히 다루지 못했다. 따라서 본 논문은 LLM이 단순한 문법적 구성을 넘어 '시적 상상력'을 구현할 수 있는지 검증하기 위한 포괄적인 평가 체계가 필요하다고 정의한다 [Figure 1].

Figure 1: POEMetric 평가 프레임워크

Figure 1 — POEMetric 평가 프레임워크

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 저자들은 7개의 고정된 시 형식과 테마로 구성된 203개의 인간 시 데이터셋을 구축하고, 30개의 LLM 을 통해 총 6,090개의 시를 생성하여 POEMetric 으로 평가하였다. 방법론적으로는 규칙 기반 알고리즘을 통해 형식적 정확도를 측정하고, Gemini-2.5-Pro 를 판사 모델로 활용하여 창의성, 고유성, 감정적 공명 등을 평가한 뒤 인간 전문가의 검증을 거쳐 이를 보완하였다 [Figure 1]. 실험 결과, 최상위 LLM은 형식 정확도(4.26/5.00)와 테마 정렬(4.99/5.00)에서는 우수한 성적을 거두었으나, 창의성(4.02), 고유성(3.95), 감정적 공명(4.06), 이미지 활용(4.49), 문학적 장치(4.67) 점수에서 인간 시인에게 크게 미치지 못하는 것으로 나타났다 [Figure 7]. 특히, 전체적인 시적 품질 평가에서도 인간(4.22)이 최상위 LLM( DeepSeek-R1 , 3.20)을 능가하며, 시 창작이 여전히 LLM에 강력한 도전 과제임을 입증하였다 [Figure 8].

Figure 7: 인간과 LLM의 창의적 능력 비교

Figure 7 — 인간과 LLM의 창의적 능력 비교

Figure 8: 전체 품질 및 authorship 평가

Figure 8 — 전체 품질 및 authorship 평가

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 시 창작을 위한 가장 포괄적인 평가 프레임워크인 POEMetric 을 제안하며, 현시점의 최신 LLM 들이 형식적 제약은 준수할 수 있으나 깊이 있는 예술적 표현력은 여전히 부족함을 입증하였다. 본 연구는 향후 생성형 AI가 예술 창작 분야에서 어느 정도의 창의적 수준에 도달했는지 객관적으로 측정하는 지표가 될 것이다. 또한, 제안된 데이터셋과 평가 알고리즘은 문학 및 디지털 인문학 연구에서 AI의 예술적 역량을 비판적으로 검토하는 데 중요한 학술적 토대를 제공할 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding
현재글 : [논문리뷰] POEMetric: The Last Stanza of Humanity
다음글 [논문리뷰] Paper Espresso: From Paper Overload to Research Insight

[논문리뷰] POEMetric: The Last Stanza of Humanity

Part 1: 요약 본문

댓글

관련 포스트

Review 의 다른글