본문으로 건너뛰기

[논문리뷰] T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

링크: 논문 PDF로 바로 열기

The paper "T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search" by Hyomin Lee et al. proposes a new red-teaming method for LLM agents. I will now extract the required information and format it as requested.

Part 1: Summary

Authors: Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

  • LLM Agents : 외부 환경과 상호작용하기 위해 Model Context Protocol (MCP)과 같은 통합 표준을 통해 도구 실행(tool execution)이 가능한 대규모 언어 모델(Large Language Models) 기반의 시스템.
  • Red-Teaming : LLM 또는 LLM Agents의 취약점 및 오작동 가능성을 선제적으로 발견하기 위해 적대적 프롬프트(adversarial prompts)를 생성하고 평가하는 프로세스.
  • Model Context Protocol (MCP) : LLM이 외부 도구와 상호작용하고 복잡한 워크플로우를 수행할 수 있도록 하는 통합 표준 프로토콜.
  • Attack Realization Rate (ARR) : LLM Agents red-teaming에서 공격 프롬프트가 유해한 목표를 실제로 도구 실행을 통해 성공적으로 달성하는 비율.
  • Tool Call Graph (TCG) : LLM Agent의 도구 실행 궤적(execution trajectory)에서 도구 간의 순차적인 호출 관계를 나타내는 방향성 그래프로, 각 엣지(edge)는 성공/실패 횟수 및 원인과 같은 메타데이터를 포함한다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존 LLM red-teaming 연구는 주로 모델에서 유해한 텍스트 출력(harmful text outputs)을 유도하는 데 초점을 맞추었으나, 이는 Model Context Protocol (MCP)과 같은 통합 표준을 통해 다단계 도구 실행(multi-step tool execution)이 가능한 LLM Agents의 새로운 안전 위험을 간과하고 있습니다. LLM Agents는 외부 환경과 직접 상호작용하여 재정적 손실, 데이터 유출, 윤리적 위반 등 실제적인 피해를 야기할 수 있으므로, 이러한 에이전트 특유의 취약점(agent-specific vulnerabilities)을 발견하는 것이 중요합니다. 기존 접근 방식은 복잡한 도구 상호작용, 위협적인 도구 조합 발견, 또는 유해한 목표를 실현하기 위한 전략적 실행을 고려하지 못하며, 이로 인해 도구 통합 환경의 다양한 위험을 충분히 커버하지 못하고 에이전트의 운영 독립성에서 발생하는 치명적인 취약점을 식별하는 데 한계가 있습니다. 따라서 본 연구는 에이전트의 다단계 도구 실행 과정에서 나타나는 취약점을 효과적으로 탐색할 수 있는 새로운 red-teaming 방법론의 필요성을 제기합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 LLM Agents의 취약점을 발견하기 위한 궤적 인식(trajectory-aware) MAP-Elites 알고리즘인 T-MAP 을 제안합니다. T-MAP은 다양한 위험 범주(risk categories)와 공격 스타일(attack styles)을 아우르는 다차원 아카이브(multidimensional archive)를 유지하여 에이전트의 취약점 지형(vulnerability landscape)을 포괄적으로 매핑합니다. T-MAP의 핵심은 실행 궤적(execution trajectories)으로부터 피드백을 명시적으로 통합하는 4단계 반복 사이클입니다 [Figure 2, cite: 1]. 첫째, Cross-Diagnosis 는 과거 프롬프트에서 성공 요인과 실패 원인을 진단하고 (Step 1), 이 진단과 Tool Call Graph (TCG) 의 구조적 지침을 활용하여 새로운 공격 프롬프트를 생성합니다 (Step 2). 실행 후, 결과 궤적의 엣지 수준 결과(edge-level outcomes)가 TCG의 도구 간 전환(tool-to-tool transitions) 메모리를 업데이트하고 (Step 3), LLMJudge 가 전체 궤적을 평가하여 성공적인 공격으로 아카이브를 업데이트합니다 (Step 4). 이를 통해 T-MAP은 프롬프트 수준의 안전 가드레일(safety guardrails)을 우회할 뿐만 아니라, 구체적인 다단계 도구 실행을 통해 악의적인 의도를 안정적으로 실현하는 공격을 가능하게 합니다.

실험 결과, T-MAP은 5가지 MCP 환경(CodeExecutor, Slack, Gmail, Playwright, Filesystem) 전반에 걸쳐 경쟁 Baselines 대비 월등히 높은 Attack Realization Rate (ARR) 를 달성했으며, 평균 ARR57.8% 에 달했습니다 [Table 1, cite: 1]. 이는 Zero-Shot (ZS) , Multi-Trial (MT) , Iterative Refinement (IR) , Standard Evolution (SE) 과 같은 기존 방법론보다 크게 우수합니다 [Table 1, cite: 1]. 특히, T-MAP은 Refusal Rate (RR) 를 효과적으로 감소시키면서 거부되지 않은 궤적들을 실제 공격으로 전환하는 데 있어 Baselines보다 훨씬 많은 비율을 성공시켰습니다 [Table 1, cite: 1]. 또한, T-MAP은 GPT-5.2 , Gemini-3-Pro , Qwen3.5 , GLM-5 와 같은 첨단 모델(frontier models)에 대해서도 높은 공격 성공률을 보였으며 [Figure 6, cite: 1], action diversity (고유한 성공적인 도구 호출 시퀀스 수) 및 lexical , semantic diversity 측면에서도 가장 뛰어난 성능을 입증했습니다 [Table 2, cite: 1]. 이는 T-MAP이 광범위한 다단계 공격 전략을 탐색하는 능력을 나타냅니다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 LLM Agents의 red-teaming을 위한 Trajectory-aware MAP-Elites 프레임워크인 T-MAP 을 제시했습니다. T-MAP은 Cross-Diagnosis 를 통해 실행 궤적에서 성공 및 실패 신호(success and failure signals)를 추출하고, Tool Call Graph (TCG) 를 유지하여 돌연변이(mutations)를 전략적으로 안내함으로써 실행 가능하고 효과적인 도구 시퀀스를 유도하는 공격 프롬프트를 생성합니다. 5가지 MCP 환경에서의 평가는 T-MAP이 Baselines 보다 더 넓고 다양한 범위의 공격을 지속적으로 발견함을 확인했습니다. 이러한 결과는 궤적 인식 진화(trajectory-aware evolution)가 자율 에이전트의 숨겨진 취약점을 밝혀내는 데 필수적이며, 실제 에이전트 애플리케이션의 안전하고 보안된 배포를 위한 중요한 단계임을 시사합니다. T-MAP은 향후 LLM Agents의 안전성을 평가하고 강화하는 데 핵심적인 도구로 활용될 것으로 기대됩니다.

Figure 1

Figure 2

Figure 6

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글