#Defense Pool

1개의 포스트

[논문리뷰] Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

본 논문은 현대의 Agent Benchmarks가 보유한 outcome verifier의 취약성을 지적하고, 이를 자동으로 강화할 수 있는 체계적인 방법론을 제안한다. 기존의 방식은 새로운 유형의 공격이 발견될 때마다 개발자가 수동으로 검증기를 패치하는 사후 대응적(reactive) 접근에 의존하고 있어 확장이 어렵다 .

#Review #Agentic Evaluation #Reward Hacking #Adversarial Robustness #LLM Benchmarks #Hacker-Fixer Loop #Verifiers #Defense Pool

2026년 6월 8일