#LLM Jailbreak

1개의 포스트

[논문리뷰] In-Context Representation Hijacking

본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.

#Review #LLM Jailbreak #In-Context Learning #Representation Hijacking #Mechanistic Interpretability #LLM Safety #Adversarial Attack #Semantic Shift

2025년 12월 3일