#LLM Monitors

1개의 포스트

[논문리뷰] Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

본 연구는 신뢰할 수 없는 LLM 에이전트가 안전 메커니즘을 우회하여 AI 제어 프로토콜을 전복시키는 문제를 다룹니다. 특히, 공격자 모델이 프로토콜과 모니터 모델에 대한 지식을 가진 적응형 공격(adaptive attacks) 에 초점을 맞춰, LLM 모니터를 핵심 실패 지점으로 악용하는 새로운 공격 벡터를 제시합니다.

#Review #AI Control Protocols #LLM Monitors #Adaptive Attacks #Prompt Injection #Jailbreaking #Red Teaming #Scalable Oversight

2025년 10월 13일