#Malicious Input Detection

1개의 포스트

[논문리뷰] False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

본 연구는 대규모 언어 모델(LLM)의 악성 입력 감지를 위해 제안된 프루빙 기반(probing-based) 방법론 의 신뢰성을 재평가하는 것을 목표로 합니다.

#Review #LLM Safety #Malicious Input Detection #Probing Classifiers #Out-of-Distribution Generalization #Superficial Patterns #Instructional Patterns #Trigger Words #AI Safety

2025년 9월 5일