[논문리뷰] Models That Know How Evaluations Are Designed Score Safer본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.#Review#AI Safety#Evaluation Awareness#Meta-Knowledge#Synthetic Document Finetuning#Benchmark Contamination#Alignment Faking#Model Evaluation2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Gaperon: A Peppered English-French Generative Language Model Suite논문은 대규모 언어 모델 훈련의 투명성과 재현성을 높이기 위해 프랑스어-영어 이중 언어 생성형 언어 모델 스위트 GAPERON 을 공개합니다.#Review#Bilingual LLMs#Data Curation#Benchmark Contamination#Data Poisoning#Open Science#Reproducibility#Generative Models#French-English2025년 10월 30일댓글 수 로딩 중