[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling이 논문은 대규모 언어 모델(LLMs)의 안전성 평가가 단일 시도(single-shot) 또는 저예산 공격에만 초점을 맞춰 실제 위협을 과소평가하는 문제를 해결하고자 합니다.#Review#LLM Safety#Adversarial Robustness#Best-of-N Sampling#Statistical Estimation#Beta-Binomial Model#Jailbreak#Risk Amplification2026년 2월 1일댓글 수 로딩 중