[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.#Review#LLM Factuality Evaluation#Benchmark Aging#Temporal Misalignment#Information Retrieval#Question Answering#Evaluation Metrics#GPT-4o-mini#Qwen2.52025년 10월 9일댓글 수 로딩 중