[논문리뷰] Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs본 논문은 오픈-웨이트 대규모 언어 모델(LLMs)이 이중 용도(dual-use) 지식(예: 바이오위협 프록시 지식)을 학습하는 것을 효과적으로 방지하고, adversarial fine-tuning 공격에 대한 변조 저항성을 높이는 새로운 방법을 제안합니다.#Review#LLMs#데이터 필터링#사전 학습#변조 저항성#바이오위협#AI 안전#서킷 브레이킹#머신 언러닝2025년 8월 12일댓글 수 로딩 중