#Jailbreak

1개의 포스트

[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

이 논문은 대규모 언어 모델(LLMs)의 안전성 평가가 단일 시도(single-shot) 또는 저예산 공격에만 초점을 맞춰 실제 위협을 과소평가하는 문제를 해결하고자 합니다.

#Review #LLM Safety #Adversarial Robustness #Best-of-N Sampling #Statistical Estimation #Beta-Binomial Model #Jailbreak #Risk Amplification

2026년 2월 1일