[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.#Review#Large Language Models#Prefill Attacks#AI Safety#Red Teaming#Vulnerability#Open-Weight Models#Jailbreaking#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Eliciting Secret Knowledge from Language Models이 논문은 AI 모델이 명시적으로 표현하지 않는 내재된 지식, 즉 '비밀 지식(secret knowledge)'을 발견하는 문제인 비밀 추출(secret elicitation) 을 다룹니다.#Review#Language Models#Secret Elicitation#Mechanistic Interpretability#Black-box Methods#White-box Methods#AI Auditing#Model Organisms#Prefill Attacks2025년 10월 2일댓글 수 로딩 중