본문으로 건너뛰기

[논문리뷰] BraveGuard: From Open-World Threats to Safer Computer-Use Agents

링크: 논문 PDF로 바로 열기

메타데이터

저자: Yunhao Feng, Xiaohu Du, Xinhao Deng, Yifan Ding, Ming Wen, Yixu Wang, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Kerui Cao, Wenke Huang, Yanming Guo, Xingjun Ma, Yu-Gang Jiang


1. Key Terms & Definitions (핵심 용어 및 정의)

  • Computer-use Agents: 터미널, 파일 시스템, 브라우저 등 외부 도구를 활용하여 다단계 작업을 수행하는 언어 모델 기반 에이전트입니다.
  • Trajectory-level Supervision: 개별적인 프롬프트나 답변이 아닌, 에이전트의 전체 실행 단계(Execution Trace)를 포괄적으로 분석하여 안전성을 감독하는 방식입니다.
  • BraveGuard: 오픈 월드상의 위협 데이터를 기반으로 에이전트의 실행 궤적을 평가하고, 이를 통해 가드 모델(Guard Model)을 스스로 진화시키는 학습 프레임워크입니다.
  • OpenClaw: BraveGuard 프레임워크 내에서 위협 시나리오에 대한 실행 궤적(Rollout)을 수집하기 위해 사용된 컴퓨터 사용 에이전트입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 컴퓨터 사용 에이전트가 직면한 고유한 보안 취약점인 '다단계 실행 궤적의 불투명성' 문제를 해결하는 것을 목적으로 합니다. 기존의 LLM 가드 모델들은 주로 단일 프롬프트나 응답의 위험성을 판단하는 데 최적화되어 있어, 개별적으로는 정상적인 것처럼 보이는 단계들이 결합되어 최종적으로는 심각한 위해를 초래하는 에이전트의 행동을 탐지하는 데 한계가 있습니다 [Figure 1]. 또한, 기존 연구들은 고정된 위험 분류체계(Taxonomy)나 수동으로 구축된 시나리오에 의존하고 있어, 급변하는 소프트웨어 생태계와 새로운 공격 패턴에 대응하기 어렵습니다. 따라서 에이전트의 실제 실행 흐름을 이해하고 진화하는 위협에 적응할 수 있는 새로운 방식의 가드 학습 프레임워크가 절실히 요구됩니다.

Figure 1: 컴퓨터 에이전트의 위험 환경

Figure 1 — 컴퓨터 에이전트의 위험 환경

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 오픈 월드의 위협 신호를 추출하여 실행 가능한 작업으로 변환하고, 이를 통해 모델을 지속적으로 학습시키는 자가 진화형 방어 프레임워크인 BraveGuard를 제안합니다 [Figure 2]. 저자들은 공개 연구 자료를 검색하여 위협 지식을 구조화한 뒤, 이를 실행 가능한 컴퓨터 사용 작업으로 인스턴스화하여 에이전트의 실행 궤적을 수집합니다. 수집된 궤적은 안전 라벨과 근거(Rationale)를 포함한 데이터셋으로 구성되며, 이를 바탕으로 Qwen3-GuardLlama-Guard와 같은 백본 모델을 학습시킵니다. 실험 결과, AgentHazard-Strongest 벤치마크에서 BraveGuard로 학습된 모델은 기존 가드 모델들(평균 정확도 38.79%) 대비 크게 향상된 82.38%의 정확도를 기록하였습니다 [Table 1]. 특히, 위험 궤적을 탐지하는 Recall 지표에서 압도적인 성능 향상을 보였으며, 이는 다단계 도구 활용 및 경로 구성 기반의 공격을 탐지하는 데 있어 BraveGuard의 유효성을 입증합니다 [Table 1].

Figure 2: BraveGuard 프레임워크 개요

Figure 2 — BraveGuard 프레임워크 개요

4. Conclusion & Impact (결론 및 시사점)

본 논문은 정적 벤치마크의 한계를 넘어 오픈 월드 위협 발견과 실제 에이전트 궤적 학습을 결합한 BraveGuard 프레임워크를 통해 컴퓨터 사용 에이전트의 안전성을 획기적으로 개선하였습니다. 이 연구는 에이전트 보안이 고정된 데이터셋을 넘어, 공격 환경과 함께 모델이 진화해야 하는 '적응형 방어' 모델로 나아가야 함을 제시합니다. 이러한 접근 방식은 향후 복잡한 자율 에이전트 시스템의 신뢰성을 확보하고, 실제 산업 현장에서 실시간 위협을 모니터링하는 데 중요한 기반 기술이 될 것으로 기대됩니다.

Figure 3: 카테고리별 성능 비교

Figure 3 — 카테고리별 성능 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글