[논문리뷰] Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols본 연구는 신뢰할 수 없는 LLM 에이전트가 안전 메커니즘을 우회하여 AI 제어 프로토콜을 전복시키는 문제를 다룹니다. 특히, 공격자 모델이 프로토콜과 모니터 모델에 대한 지식을 가진 적응형 공격(adaptive attacks) 에 초점을 맞춰, LLM 모니터를 핵심 실패 지점으로 악용하는 새로운 공격 벡터를 제시합니다.#Review#AI Control Protocols#LLM Monitors#Adaptive Attacks#Prompt Injection#Jailbreaking#Red Teaming#Scalable Oversight2025년 10월 13일댓글 수 로딩 중