#Alignment Faking

1개의 포스트

[논문리뷰] Models That Know How Evaluations Are Designed Score Safer

본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.

#Review #AI Safety #Evaluation Awareness #Meta-Knowledge #Synthetic Document Finetuning #Benchmark Contamination #Alignment Faking #Model Evaluation

2026년 5월 27일