#Adversarial Generation

1개의 포스트

[논문리뷰] SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

본 논문은 LLM 에이전트의 강력한 도구 사용 능력(tool-use)으로 인한 새로운 보안 위협과 기존 방어 기법들의 한계점을 해결하고자 합니다.

#Review #LLM Agent Safety #Memory Mechanism #Guardrail #Adversarial Generation #Information Entropy #Over-refusal Mitigation

2026년 5월 13일