#GPT-4o-mini

1개의 포스트

[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.

#Review #LLM Factuality Evaluation #Benchmark Aging #Temporal Misalignment #Information Retrieval #Question Answering #Evaluation Metrics #GPT-4o-mini #Qwen2.5

2025년 10월 9일