#AI Control

1개의 포스트

[논문리뷰] The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

본 논문은 독립적으로는 정렬된(Aligned) 에이전트들이 상호작용하며 발생하는 예측 불가능한 시스템 레벨의 위험을 감지하기 위한 실시간 감사 프레임워크를 제안한다.

#Review #Multi-agent Safety #Emergent Misalignment #Alignment Auditing #LLM Agents #AI Control #Budget-constrained Monitoring

2026년 6월 14일