#Refusal Rate

1개의 포스트

[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!

본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.

#Review #Large Language Models (LLMs)#Operational Safety #Out-of-Domain (OOD)#Prompt Steering #Jailbreak Attacks #Evaluation Benchmark #Refusal Rate

2025년 10월 1일