[논문리뷰] Eliciting Secret Knowledge from Language Models이 논문은 AI 모델이 명시적으로 표현하지 않는 내재된 지식, 즉 '비밀 지식(secret knowledge)'을 발견하는 문제인 비밀 추출(secret elicitation) 을 다룹니다.#Review#Language Models#Secret Elicitation#Mechanistic Interpretability#Black-box Methods#White-box Methods#AI Auditing#Model Organisms#Prefill Attacks2025년 10월 2일댓글 수 로딩 중