[논문리뷰] AI translation of literary texts is 'fine', but readers still prefer human translations

2026년 7월 1일수정: 2026년 7월 1일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Yves Ferstler, Adam Podoxin, Ty Brassington, Roman Grundkiewicz, Maite Taboada, Marzena Karpinska

1. Key Terms & Definitions (핵심 용어 및 정의)

LAIT (Literary AI Translation): 문학 번역 품질을 평가하기 위해 본 연구에서 구축한 독자 중심의 데이터셋으로, 15개의 소설 도입부와 그에 대한 독자의 주석, 선호도, 코멘트 등을 포함함.
Agentic Pipeline: Claude Code와 Codex를 활용하여 번역, 검토, 수정을 반복하며 문학적 맥락과 스타일을 유지하도록 설계된 LLM 기반 번역 자동화 프레임워크 [Figure 2].
Immersive Reading: 독자가 전체 분량(~8K 단어)의 번역본을 중단 없이 읽고 전체적인 몰입감과 문학적 완성도를 평가하는 방식.
Close Reading: 300단어 내외의 Chunk 단위로 HT(Human Translation)와 MT(Machine Translation)를 병렬 배치하여 특정 구문의 품질을 비교하고 span-level의 주석을 다는 평가 방식.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 LLM 기반 번역이 문학적 텍스트를 처리할 수 있게 되었음에도 불구하고, 실제 독자의 몰입감과 문학적 경험 측면에서 인간 번역가와 어떤 차이를 보이는지에 대한 불확실성을 해결하고자 한다. 기존의 자동 평가 지표(Automatic Metrics)나 세그먼트 단위의 품질 평가는 독자의 실질적인 독서 경험을 충분히 반영하지 못하는 한계가 있다. 저자들은 이러한 격차를 메우기 위해 15명의 전문 독자를 모집하여 실제 출판된 HT와 Agentic MT를 비교하는 실험을 설계하였다 [Figure 1].

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구는 15개의 프랑스어, 폴란드어, 일본어 소설 원문을 영어로 번역한 데이터를 구축하고, Immersive Reading과 Close Reading을 결합한 다단계 평가 프로토콜을 제안하였다 [Figure 3]. Agentic Pipeline은 GPT-5.4와 Claude Code 등을 활용하여 chunk 단위의 번역 검토와 전체 draft의 일관성 검수를 수행한다 [Figure 2]. 주요 실험 결과, 독자들은 MT를 "무난하다(fine)"고 평가했으나, HT에 대해 유의미한 선호도를 보였으며, 특히 Close Reading 환경에서 HT 선호도는 522/772(약 67.6%)로 더 뚜렷하게 나타났다 [Figure 4]. 또한, 독자들은 MT와 HT를 안정적으로 구분하지 못했으며(정확도 17/30), MT의 경우 텍스트 내부의 품질 변동성(fluctuation)이 HT보다 훨씬 높다는 점이 span-level 주석을 통해 확인되었다 [Figure 7].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 최신 Agentic MT가 문학적 번역에서도 읽을 만한 수준의 결과물을 생성할 수 있음을 보여주나, 여전히 독자들은 몰입감과 자연스러운 어휘 선택 측면에서 인간 번역가를 선호함을 입증하였다. 본 연구가 공개한 LAIT 데이터셋과 독자 중심 평가 프레임워크는 향후 문학 번역 AI 시스템의 정성적 성능을 평가하고 개선하는 데 중요한 벤치마크가 될 것으로 기대된다. 결론적으로, 자동 평가 지표가 인간의 선호도를 완전히 대체할 수 없음을 시사하며, 문학적 번역 품질 평가를 위해서는 독자의 경험을 직접적으로 측정하는 방식이 필수적이다.

Part 2: 중요 Figure 정보

Figure 1: 평가 파이프라인 개요

Figure 1 — 평가 파이프라인 개요

Figure 2: Agentic MT 파이프라인

Figure 2 — Agentic MT 파이프라인

Figure 3: 평가 설계 및 데이터 통계

Figure 3 — 평가 설계 및 데이터 통계

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ABot-M0.5: Unified Mobility-and-Manipulation World Action Model
현재글 : [논문리뷰] AI translation of literary texts is 'fine', but readers still prefer human translations
다음글 [논문리뷰] ASPIRE: Agentic /Skills Discovery for Robotics