[논문리뷰] Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops본 논문은 현대의 Agent Benchmarks가 보유한 outcome verifier의 취약성을 지적하고, 이를 자동으로 강화할 수 있는 체계적인 방법론을 제안한다. 기존의 방식은 새로운 유형의 공격이 발견될 때마다 개발자가 수동으로 검증기를 패치하는 사후 대응적(reactive) 접근에 의존하고 있어 확장이 어렵다 .#Review#Agentic Evaluation#Reward Hacking#Adversarial Robustness#LLM Benchmarks#Hacker-Fixer Loop#Verifiers#Defense Pool2026년 6월 8일댓글 수 로딩 중