[논문리뷰] In-Context Representation Hijacking본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.#Review#LLM Jailbreak#In-Context Learning#Representation Hijacking#Mechanistic Interpretability#LLM Safety#Adversarial Attack#Semantic Shift2025년 12월 3일댓글 수 로딩 중