[논문리뷰] Models That Know How Evaluations Are Designed Score Safer본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.#Review#AI Safety#Evaluation Awareness#Meta-Knowledge#Synthetic Document Finetuning#Benchmark Contamination#Alignment Faking#Model Evaluation2026년 5월 27일댓글 수 로딩 중