#Psychology-Informed

1개의 포스트

[논문리뷰] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

본 연구는 현재 LLM의 거절 방식이 지나치게 정형화되어 있어 사용자의 반발을 유발하거나, 의도치 않게 안전 필터를 우회당하는 취약점을 안고 있다는 문제에서 출발한다.

#Review #LLM Safety #Psychology-Informed #Refusal Strategy #Alignment #Red Teaming #Cognitive Science #AI Ethics

2026년 6월 9일