#Factuality Benchmark

1개의 포스트

[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

이 논문은 대규모 언어 모델(LLM)이 다양한 시나리오에서 사실적으로 정확한 텍스트를 생성하는 능력을 포괄적으로 평가하기 위한 새로운 온라인 리더보드 스위트인 The FACTS Leaderboard 를 소개합니다.

#Review #LLM Evaluation #Factuality Benchmark #Multimodal AI #Knowledge Grounding #Parametric Knowledge #Retrieval Augmented Generation #Automated Scoring

2025년 12월 11일