#System Robustness

1개의 포스트

[논문리뷰] AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

LLM 기반 다중 에이전트 시스템(MAS)이 jailbreak, prompt-injection, adversarial collaboration과 같은 공격에 취약한 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Reinforcement Learning #Adversarial Co-evolution #LLM Safety #Jailbreak Attacks #Internalized Safety #Public Baseline #System Robustness

2025년 10월 7일