[논문리뷰] PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

2026년 6월 29일수정: 2026년 6월 29일

링크: 논문 PDF로 바로 열기

저자: Seongjae Kang, Taehyung Yu, Sung Ju Hwang

1. Key Terms & Definitions (핵심 용어 및 정의)

Policy Adherence: LLM 에이전트가 사용자 요청을 처리하는 과정에서 사전에 정의된 조직의 Company Policy와 절차적 요구사항(Procedural requirements)을 준수하는 것을 의미합니다.
Dialogue-Grounded: 단순히 개별적인 Tool Call의 인자(argument)만을 검사하는 것이 아니라, 사용자와 에이전트 간의 전체 대화 이력을 문맥적으로 이해하고 이를 바탕으로 판단을 내리는 접근 방식을 지칭합니다.
Sub-Agent Verifier: 에이전트와 환경(Environment) 사이에 위치하여 모든 돌연변이(Mutating) 도구 호출을 가로채고, 정책 준수 여부를 평가하며, 필요 시 에이전트에게 Remediation 메시지를 제공하는 보조 에이전트입니다.
Remediation: 정책 위반이 감지되었을 때, 에이전트에게 단순히 '거부(Block)' 응답을 보내는 대신, 부족한 절차(prerequisite)나 다음 단계로 수행해야 할 질문을 구체적으로 지시하여 에이전트가 올바른 결과를 도출하도록 유도하는 피드백 체계입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Safeguarding 기술이 주로 악의적인 콘텐츠나 jailbreak 방지에만 치중하고 있어, 에이전트의 복잡한 절차적 정책 준수(Policy adherence) 문제를 해결하는 데 한계가 있다는 점을 지적합니다 [Figure 1]. 기존의 ToolGuard나 Solver-Aided 시스템과 같은 도구들은 대화 문맥을 무시한 채 오직 Tool Call의 인자나 구조만을 검사하기 때문에, 대화 흐름상 필요한 사용자 동의나 사전 확인 절차를 놓치는 경우가 많습니다 [Table 1]. 이러한 방식은 단편적인 거부(static block)만 가능할 뿐, 에이전트가 올바르게 대화를 이어갈 수 있도록 하는 지능적인 교정(Remediation)을 제공하지 못합니다. 따라서 저자들은 대화 문맥을 파악하고 정책을 스스로 추론하며 행동을 안내할 수 있는 새로운 검증 프레임워크인 PolicyGuard의 필요성을 제시합니다 [Figure 2].

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문이 제안하는 PolicyGuard는 Verifier 서브 에이전트를 도입하여 에이전트와 환경 사이의 Tool-Calling 루프를 관리합니다. 이 시스템은 오프라인 단계에서 원본 정책 문서로부터 도구별 Checklist YAML을 생성하고, 온라인 단계에서는 전체 대화 이력과 이 체크리스트를 결합하여 실시간으로 도구 호출의 적절성을 평가합니다 [Figure 2]. 주요 실험 결과, τ²-bench 벤치마크 환경에서 PolicyGuard는 GPT 5.4, Claude Sonnet 4.6, Gemini 2.5 Pro 등 모든 테스트 모델에서 Pass⁴ 성능을 유의미하게 향상시켰습니다 [Table 2]. 특히 GPT 5.4 기반 모델에서는 Pass⁴ 지표가 12.0pp 증가하였으며, 기존의 인자 기반 가드레일보다 절반 수준의 낮은 블록률(block rate)을 유지하면서도 더 높은 정책 위반(PV) 감지 성능을 보였습니다. 실험을 통해 대화 문맥을 차단할 경우 Mutating 도구 호출 성공률이 0%로 급락함을 확인하여, Dialogue-Grounded 방식이 정책 준수에 필수적임을 입증하였습니다 [Table 3].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 에이전트의 정책 준수 문제가 단순한 안전성 검증을 넘어선 절차적 대화 이해의 문제임을 규명하고, 이를 해결하기 위한 PolicyGuard 프레임워크를 성공적으로 제안하였습니다. 대화 이력과 결합된 서브 에이전트 기반의 검증 방식은 기존 시스템들의 구조적 한계인 문맥 인식 부재와 교정 피드백의 부재를 효과적으로 극복하였습니다. 이 연구는 복잡한 고객 응대 에이전트나 금융·통신 등 고도의 신뢰성이 요구되는 도메인에서 에이전트의 안정적인 운용을 가능하게 하는 핵심적인 기술적 기반을 마련했습니다. 향후 에이전트 시스템이 상용화되는 과정에서, 본 모델은 정책적 요구사항과 실질적인 워크플로우를 통합하는 강력한 가이드라인으로 활용될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] One Scene, Two Depths: Probing Geometric Ambiguity in Monocular Foundation Models
현재글 : [논문리뷰] PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents
다음글 [논문리뷰] PoseShield: Neural Collision Fields for Human Self-Collision Resolution