[논문리뷰] When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

2026년 6월 7일수정: 2026년 6월 7일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Dongsheng Zhu, Xuchen Ma, Yucheng Shen, Xiang Li, Yukun Zhao, Shuaiqiang Wang, Lingyong Yan, Dawei Yin

1. Key Terms & Definitions (핵심 용어 및 정의)

Tool-Integrated Reasoning (TIR): LLM이 외부 API나 도구를 호출하여 복잡한 작업을 해결하는 추론 방식.
Topological Task Complexity (𝒞): DAG(Directed Acyclic Graph) 구조로 정의된 작업의 복잡도로, 𝒞1(단순 선형)부터 𝒞4(통합 멀티 브랜치)까지 단계별로 구성됨.
Perturbation Mode (𝒫): 도구 실패의 유형을 Explicit/Implicit, Transient/Permanent 두 축으로 분류한 2x2 페일러 택소노미.
Perturbation Recovery Rate (PRR): 발생한 오류에 직면했을 때 에이전트가 재시도(Retry), 경로 수정, 혹은 적절한 종료를 통해 성공적으로 대처하는 능력을 측정한 지표.
Recovery Cost (RC): 실패 후 최종 성공까지의 경로에서 에이전트가 불필요한 도구 호출을 얼마나 최소화했는지를 측정하는 효율성 지표.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 LLM 에이전트 벤치마크들이 이상적인 "Happy Path" 환경만을 상정하여, 현실의 불안정한 도구 실행 및 오류 상황을 제대로 평가하지 못하는 한계를 지적한다. 대부분의 기존 연구는 도구의 완벽한 가동을 가정하므로, 네트워크 오류나 의미론적으로 잘못된 결과(Implicit failure)가 발생했을 때 에이전트가 어떻게 재계획(Replanning)하고 복구하는지 측정하지 못한다. 이러한 환경에서는 에이전트가 오류를 인지하지 못한 채 잘못된 값을 전파하거나, 끝없는 시행착오 루프에 빠지는 문제가 발생한다. 따라서 저자들은 동적 경로 발견과 오류 복구 능력을 체계적으로 측정할 수 있는 새로운 벤치마크 프레임워크가 필요하다고 주장한다 [Figure 1].

Figure 1: 도구 실패 시 에이전트 행동 비교

Figure 1 — 도구 실패 시 에이전트 행동 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 도구 사용 에이전트의 강건성을 평가하기 위해 DAG 기반의 2차원 평가 그리드인 ToolMaze 프레임워크를 제안한다 [Figure 2]. ToolMaze는 Topological Complexity(𝒞)와 Perturbation Mode(𝒫)를 직교 좌표로 구성하여, 에이전트가 복잡한 작업 흐름 속에서 어떻게 이상 징후를 감지하고 복구 경로를 찾는지 정량적으로 분석한다. 특히, Task Success Rate(TSR) 외에도 PRR과 RC 지표를 도입하여 단순 성공 여부를 넘어 에이전트의 재계획 효율성을 평가한다 [Table 1]. 실험 결과, 모든 모델은 오류 상황에서 성능이 유의미하게 하락했으며, 특히 Implicit semantic failure 상황에서 PRR이 약 37% 감소하는 등 치명적인 취약성을 보였다. 또한, 모델의 크기가 커져도 기본 작업 실행 속도보다 오류 허용 능력(Fault-tolerance) 향상 속도가 3.66배 느리다는 점을 확인하였으며, 이는 모델 확장만으로는 해결되지 않는 고유한 병목 현상이 존재함을 시사한다 [Figure 3].

Figure 2: ToolMaze 프레임워크 개요

Figure 2 — ToolMaze 프레임워크 개요

Figure 3: 복잡도별 평균 성능 지표

Figure 3 — 복잡도별 평균 성능 지표

4. Conclusion & Impact (결론 및 시사점)

본 논문은 LLM 에이전트의 진정한 강건성이 선형적인 도구 사용이 아닌, 복잡한 상황에서의 동적 재계획 능력에 달려 있음을 입증하였다. ToolMaze 프레임워크는 에이전트가 오류 상황에서 단순히 추측하는 것이 아니라, 체계적인 환경 탐색을 수행하도록 유도하며 향후 에이전트 시스템의 설계 기준을 제시한다. 이 연구는 산업계와 학계가 에이전트의 신뢰성을 높이기 위해 단순 성능 향상뿐만 아니라 장애 대응 아키텍처와 오류 인식 추론 메커니즘을 강화해야 한다는 점을 시사한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
현재글 : [논문리뷰] When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents
다음글 [논문리뷰] WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark