[논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents
링크: 논문 PDF로 바로 열기
저자: Ling Yue, Kushal Raj Bhandari, et al.
1. Key Terms & Definitions
- Agentic computation graph (ACG) : LLM 중심의 실행 가능한 워크플로를 위한 통합 추상화 (unifying abstraction)로, 노드(node)는 LLM 호출, 정보 검색, 툴 사용, 검증, 메시지 전달 등 원자적 액션(atomic actions)을 수행하며, 엣지(edge)는 제어, 데이터 또는 통신 의존성을 인코딩합니다.
- ACG template : 재사용 가능한 (reusable) 실행 가능 명세 (executable specification)를 의미합니다.
- Realized graph : 특정 실행 (run)을 위해 실제로 사용되는 워크플로 구조를 지칭합니다.
- Graph determination time (GDT) : 워크플로 구조가 결정되는 시점을 나타내며,
offline,pre-execution, 또는in-execution으로 분류됩니다. - Graph plasticity mode (GPM) : 추론 시 (inference time) 구조가 변경될 수 있는 정도를 나타내며,
none,select,generate, 또는edit으로 분류됩니다.
2. Motivation & Problem Statement
LLM 기반 시스템은 단일 프롬프트에 응답하는 단순한 챗봇을 넘어, LLM 호출, 정보 검색, 툴 사용, 코드 실행, 메모리 업데이트 및 검증을 통합하는 실행 가능한 워크플로를 구성하여 태스크를 해결하는 방식으로 발전하고 있습니다. 이러한 시스템에서는 개별 모델 호출의 품질뿐만 아니라, 무엇이, 언제 호출되며, 정보가 어떻게 흐르는지를 결정하는 전반적인 워크플로 구조 (workflow structure) 가 실제 성능에 결정적인 영향을 미칩니다. 기존 연구들은 LLM 에이전트의 계획 (planning), 툴 학습 (tool learning), 다중 에이전트 시스템 (multi-agent systems) 아키텍처 등 인접한 주제에 초점을 맞추었으나, 워크플로 구조 자체 (workflow structure itself) 를 주요 최적화 대상으로 다루는 경우는 드뭅니다.
이러한 한계는 에이전트 역량 향상이 때때로 과도한 깊이 (excessive depth), 취약한 제어 흐름 (fragile control flow), 높은 통신 오버헤드 (high communication overhead)와 같은 숨겨진 구조적 비용을 수반할 수 있음을 의미합니다. 따라서 이 분야는 새로운 방법론을 위치시킬 수 있는 명확한 어휘 (clear vocabulary), 통합 프레임워크 (unified framework), 기존 문헌에 대한 비교 가능한 관점, 그리고 재현 가능한 평가 표준 (reproducible evaluation standard)의 필요성에 직면해 있습니다. 본 연구는 이러한 격차를 해소하고, LLM 에이전트를 위한 워크플로 최적화 연구의 발전을 위한 기반을 제공하는 것을 목표로 합니다

3. Method & Key Results
본 연구는 LLM 에이전트 시스템을 Agentic Computation Graphs (ACGs) 라는 워크플로 중심적 관점에서 개념화합니다 [Figure 1]. 저자들은 재사용 가능한 ACG template , 특정 실행을 위한 realized graph , 그리고 실행 시 발생하는 execution trace 를 구분함으로써 방법론이 최적화하는 대상을 명확히 합니다. 또한, 워크플로 구조가 결정되는 시점에 따라 Graph Determination Time (GDT) (offline, pre-execution, in-execution)과 추론 시 구조 변경 가능성을 나타내는 Graph Plasticity Mode (GPM) (none, select, generate, edit)를 포함하는 새로운 분류 체계를 제안합니다. 이러한 분류는 고정 템플릿 최적화, 실행 전 생성 또는 선택, 실행 중 편집과 같은 다양한 접근 방식을 비교하는 데 활용됩니다.
본 논문은 워크플로 최적화 방법론을 크게 두 가지 범주로 분류하여 검토합니다.
-
Static Optimization of Agent Workflows : 배포 전에 재사용 가능한 템플릿을 최적화하는 방법입니다. 예를 들어, AFlow 는 Monte Carlo Tree Search (MCTS) 를 사용하여 타입이 지정된 오퍼레이터 그래프 (typed operator graphs)를 탐색하며, LLM 기반 확장 (LLM-guided expansion)과 실행 가능 평가 (executable evaluation) 및 명시적인 비용 (dollar cost)을 결합합니다. ADAS 는 메타-에이전트 (meta-agent)가 실행 가능한 에이전트 시스템을 제안하고 평가하며 개선하는 코드 공간 탐색 방식을 사용합니다. 이러한 방법들은 일반적으로 오프라인에서 재사용 가능한 템플릿을 효과적으로 최적화하며, 특히 오퍼레이터 공간이 제약되고 평가가 신뢰할 수 있으며 작업 부하가 반복적인 환경에서 유용합니다.
-
Dynamic Optimization and Runtime Adaptation : 추론 시 워크플로의 일부를 결정, 선택 또는 수정하는 방법입니다. 이는 세 가지 주요 방식으로 나뉩니다.
- Selection and Pruning : 고정된 슈퍼-그래프에서 특정 부분을 활성화하거나 제거하는 가장 가벼운 형태의 동적 최적화입니다. Adaptive Graph Pruning 은 태스크 및 에이전트 임베딩 (task and agent embeddings)을 사용하여 에지 (edges)와 에이전트 (agents)를 가지치기하여 태스크-적응형 희소 토폴로지 (task-adaptive sparse topologies)를 생성합니다.
- Pre-execution Workflow Generation : 실행 시작 전에 런-특정 (run-specific) 워크플로를 생성하거나 선택합니다. Assemble Your Crew 는 쿼리 조건부 DAG (Directed Acyclic Graph) 를 생성하기 위해 역할 (roles)과 에지 (edges)를 자기회귀적으로 샘플링하며, G-Designer 는 변분 그래프 오토인코더 (variational graph autoencoder)를 통해 그래프 생성기 (graph generator)를 학습합니다.
- In-execution Editing : 실행 중에 구조적 변경 (structural change)을 통합합니다. DyFlow 는 설계자 (designer)와 실행자 (executor)를 번갈아 사용하여 중간 피드백에 따라 서브-골 (sub-goals)과 오퍼레이터 (operators)를 동적으로 수정합니다. AgentConductor 는 타당성 (validity), 코드 실행 (code-execution), 비용 피드백 (cost feedback)을 기반으로 토폴로지를 재생성하며 실행 중에 구조를 진화시킵니다.
핵심 결과는 워크플로 최적화가 태스크 품질 (quality)과 실행 비용 (cost) 간의 균형 문제로 접근된다는 점입니다. 정량적 지표로는 성공률 (success rate) , 정확도 (accuracy) , F1 스코어 , pass@k 등이 활용되며, 비용 측면에서는 토큰 사용량 (token usage) , LLM 호출 횟수 (LLM calls) , 툴 호출 횟수 (tool calls) , 지연 시간 (latency) , 금전적 비용 (monetary expense) 등이 고려됩니다. 이 논문은 또한 minimum reporting protocol 을 제안하여, 다운스트림 태스크 성능과 함께 그래프 수준 속성 (graph-level properties), 실행 비용, 견고성 (robustness), 입력 전반의 구조적 변화 (structural variation across inputs)를 보고하도록 권장하여 워크플로 평가의 비교 가능성과 재현성을 높입니다.
4. Conclusion & Impact
본 연구는 LLM 에이전트 시스템을 실행 가능한 워크플로로 개념화하고, 이를 최적화하기 위한 방법들을 체계적으로 검토합니다. 주요 결론은 워크플로 구조가 시스템의 역량 (capability), 운영 비용 (operational cost), 신뢰성 (reliability) 및 과학적 비교 가능성 (scientific comparability)에 직접적인 영향을 미치므로, 이를 구현 세부 사항이 아닌 일등 설계 객체 (first-class design object) 로 격상시켜야 한다는 것입니다.
제안된 분류 체계는 프롬프트 컴파일 (prompt compilation), 토폴로지 가지치기 (topology pruning), 워크플로 생성 (workflow generation), 런타임 편집 (runtime editing)과 같은 이질적인 기술들을 일관된 품질-비용 분석 프레임워크 (quality-cost analytical framework) 내에서 통합합니다. 이는 LLM 에이전트 워크플로 연구의 현 상태를 명확히 하고, 정적 및 동적 최적화의 트레이드오프 (trade-offs), 다양한 피드백 신호 (feedback signals)의 역할, 구조적 평가 (structural evaluation)의 중요성을 강조함으로써 향후 연구 방향을 제시합니다. 궁극적으로 이 연구는 LLM 에이전트의 워크플로 구조를 엄격하게 분석, 최적화 및 평가하는 데 필요한 개념적 기초 (conceptual foundations)와 분석 도구 (analytical apparatus)를 제공하여 해당 분야의 성숙에 기여합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos
- 현재글 : [논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents
- 다음글 [논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding