#Model Organisms

1개의 포스트

[논문리뷰] Eliciting Secret Knowledge from Language Models

이 논문은 AI 모델이 명시적으로 표현하지 않는 내재된 지식, 즉 '비밀 지식(secret knowledge)'을 발견하는 문제인 비밀 추출(secret elicitation) 을 다룹니다.

#Review #Language Models #Secret Elicitation #Mechanistic Interpretability #Black-box Methods #White-box Methods #AI Auditing #Model Organisms #Prefill Attacks

2025년 10월 2일