[논문리뷰] False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize본 연구는 대규모 언어 모델(LLM)의 악성 입력 감지를 위해 제안된 프루빙 기반(probing-based) 방법론 의 신뢰성을 재평가하는 것을 목표로 합니다.#Review#LLM Safety#Malicious Input Detection#Probing Classifiers#Out-of-Distribution Generalization#Superficial Patterns#Instructional Patterns#Trigger Words#AI Safety2025년 9월 5일댓글 수 로딩 중