#Attack Success Rate (ASR)

1개의 포스트

[논문리뷰] Jailbreaking in the Haystack

본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.

#Review #Jailbreaking #LLM Safety #Long-Context Models #Positional Bias #Attack Success Rate (ASR)#Prompt Engineering #Compute Efficiency #AI Agents

2025년 11월 9일