본문으로 건너뛰기

[논문리뷰] From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

링크: 논문 PDF로 바로 열기

메타데이터

저자: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen


1. Key Terms & Definitions (핵심 용어 및 정의)

  • Agentic Harness: LLM이 로컬 도구, 메모리, 파일 시스템을 사용하여 다단계 작업을 수행하도록 돕는 런타임 환경입니다.
  • Multi-step Trojan Attack: 개별 단계에서는 악의적으로 보이지 않는 작은 지침들을 여러 곳에 나누어 심고, 이후 해당 지침들을 결합하여 Agent가 무단 제어를 수행하도록 만드는 공격 패러다임입니다.
  • ClawTrojan: Agentic Harness 환경에서의 다단계 Trojan 공격을 평가하기 위한 벤치마크 데이터셋입니다.
  • DASGuard: 감지(Detection), 속성 부여(Attribution), 살균(Sanitization) 기법을 통해 Agent 워크스페이스의 비인가 제어 콘텐츠를 식별하고 차단하는 방어 프레임워크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Agentic Harness 환경에서 발생하는 다단계 Trojan 공격이 기존의 단일 턴 기반 방어 체계를 무력화하는 심각한 보안 위협임을 지적한다. 기존 연구들은 주로 단일 턴 프롬프트 주입 공격에 초점을 맞추고 있으나, 최신 모델들은 이러한 공격을 쉽게 탐지하는 반면 로컬 파일이나 메모리에 자연스럽게 심어진 악성 규칙에는 취약하다는 한계가 있다. 공격자는 파일 시스템이나 도구 출력물에 악성 지침을 분산 삽입하여, 향후 Agent가 이를 신뢰할 수 있는 작업 환경의 일부로 재사용하게 유도한다 [Figure 1]. 이러한 방식은 단일 단계만 검사하는 기존 방어 메커니즘으로는 식별이 불가능하며, 공격이 성공할 경우 시스템에 지속적인 제어 권한을 획득하게 된다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 이러한 공격을 방어하기 위해 DASGuard 프레임워크를 제안하며, 이는 Agent의 모든 입출력에 대한 콘텐츠 소스를 추적하고 권한 없는 제어 콘텐츠를 동적으로 살균한다 [Figure 2]. DASGuard는 콘텐츠 소스 그래프를 유지하여 각 정보의 출처(Trusted vs. Untrusted)를 레이블링하고, 특정 span이 제어 목적을 갖는지 탐지하여 위험 점수(Risk Score)에 기반한 정책을 적용한다. 실험 결과, GPT-5.4 기반 환경에서 ClawTrojan 벤치마크를 통해 검증했을 때, Raw Agent는 95.5%의 높은 ASR(Attack Success Rate)을 보인 반면, DASGuard를 적용한 경우 ASR15.8%로 획기적으로 낮추는 성과를 거두었다. 특히, Full-chain ASR 수치에서도 타 방어 기법 대비 월등한 성능 우위를 보였으며, 공격 체인 전반의 침투율(Penetration) 역시 10.1% 수준으로 억제하였다 [Table 4].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 Agent가 워크스페이스 내 로컬 상태를 재사용하면서 발생하는 보안 취약점을 처음으로 체계화하고, 이를 위한 효과적인 벤치마크인 ClawTrojan과 방어 기법인 DASGuard를 제시하였다. 연구 결과는 단순한 입출력 필터링을 넘어, 데이터의 출처(Provenance)와 의도(Semantic intent)를 추적하는 동적 방어 체계가 실제 업무 환경의 Agent 보안에 필수적임을 시사한다. 이 접근 방식은 향후 자율 Agent의 안전한 상용화를 위한 핵심적인 보안 아키텍처 모델을 제공할 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글