본문으로 건너뛰기

[논문리뷰] FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

링크: 논문 PDF로 바로 열기

메타데이터

저자: Paul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi


1. Key Terms & Definitions (핵심 용어 및 정의)

  • FAPO (Fully Autonomous Prompt Optimization): Claude Code를 활용하여 LLM 파이프라인의 프롬프트와 구조를 자율적으로 최적화하는 프레임워크입니다.
  • Step-level Attribution: 파이프라인의 중간 단계(Retrieval, Reasoning, Formatting 등)를 검사하여 구체적인 실패 원인을 식별하는 분석 기법입니다.
  • Tenant Workspace: 각 태스크별로 독립적인 실행 환경, 데이터, 스코어링 규칙, 그리고 최적화 제약 조건(Scope Contract)을 관리하는 단위입니다.
  • Claude Code: FAPO의 핵심 엔진으로, 에이전트 기반의 코드 편집, 평가 실행, 서브 에이전트 할당 및 최적화 루프를 오케스트레이션하는 도구입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 복잡한 Multi-step LLM 파이프라인에서 발생하는 단계 간 상호작용 실패와 병목 현상을 해결하기 위해 FAPO를 제안한다. 기존의 프롬프트 전용 최적화 기법은 파이프라인 전체의 구조적 결함을 파악하는 데 한계가 있으며, 단일 단계의 프롬프트 튜닝만으로는 성능 개선이 어렵다. 저자들은 파이프라인을 하나의 inspectable한 워크플로우로 보고, 실패의 원인을 명확히 추적하여 프롬프트 편집부터 구조적 변경까지 유연하게 대응할 수 있는 시스템이 필요함을 강조한다 [Figure 1].

Figure 1: FAPO의 자율 최적화 루프 개요

Figure 1 — FAPO의 자율 최적화 루프 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구는 Claude Code가 주도하는 6단계 최적화 루프를 통해 파이프라인을 최적화하는 FAPO 프레임워크를 제안한다 [Figure 2]. FAPO는 먼저 프롬프트 수준의 편집을 시도하며, Step-level Attribution을 통해 프롬프트만으로 해결 불가능한 구조적 병목이 확인될 경우에만 제한적으로 파이프라인의 구조나 파라미터를 수정한다. 이 과정에서 독립적인 리뷰 에이전트가 제안된 변경 사항의 안정성과 제약 조건을 검증한다. 실험 결과, FAPO는 6개의 벤치마크와 3개의 태스크 모델을 대상으로 진행한 18개의 비교에서 15승을 거두었으며, 기존 Baseline 대비 평균 +14.1 pp의 성능 향상을 기록하였다. 특히 HoVerIFBench와 같이 구조적 변경이 필요한 태스크에서는 평균 +33.8 pp의 압도적인 성능 우위를 보였으며, 보안 관련 태스크인 CTIBench-RCM에서도 GPT-5, Foundation-Sec-8B-Instruct 등 모델 전반에서 성능 개선을 달성하였다 [Table 2].

Figure 2: FAPO의 상세 최적화 프로세스

Figure 2 — FAPO의 상세 최적화 프로세스

4. Conclusion & Impact (결론 및 시사점)

본 논문은 데이터 기반의 증거와 에이전트의 추론 능력을 결합하여 LLM 파이프라인을 자율적으로 최적화하는 실용적인 경로를 제시한다. FAPO는 단순 프롬프트 튜닝을 넘어 파이프라인 전체의 구조적 결함을 스스로 교정함으로써 신뢰성 높은 시스템 구축을 가능하게 한다. 이 연구는 학계의 연구 자동화뿐만 아니라 복잡한 엔터프라이즈 환경에서의 LLM 워크플로우 운영 및 최적화 표준에 중요한 시사점을 제공한다. 향후 연구를 통해 더 광범위한 도메인에서의 파이프라인 최적화 성능이 기대된다.

Figure 3: 모델별 성능 최적화 추이

Figure 3 — 모델별 성능 최적화 추이

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글