[논문리뷰] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models본 연구는 현재 LLM의 거절 방식이 지나치게 정형화되어 있어 사용자의 반발을 유발하거나, 의도치 않게 안전 필터를 우회당하는 취약점을 안고 있다는 문제에서 출발한다.#Review#LLM Safety#Psychology-Informed#Refusal Strategy#Alignment#Red Teaming#Cognitive Science#AI Ethics2026년 6월 9일댓글 수 로딩 중