#사전 학습

1개의 포스트

[논문리뷰] Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

본 논문은 오픈-웨이트 대규모 언어 모델(LLMs)이 이중 용도(dual-use) 지식(예: 바이오위협 프록시 지식)을 학습하는 것을 효과적으로 방지하고, adversarial fine-tuning 공격에 대한 변조 저항성을 높이는 새로운 방법을 제안합니다.

#Review #LLMs #데이터 필터링 #사전 학습 #변조 저항성 #바이오위협 #AI 안전 #서킷 브레이킹 #머신 언러닝

2025년 8월 12일