[논문리뷰] Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation본 논문은 1,000명 이상의 현업 전문가가 참여하여 구축한 1,346개의 전문 작업으로 구성된 XpertBench 프레임워크를 제안한다. 평가 신뢰성을 위해 각 작업은 15~40개의 가중치가 부여된 원자적 체크포인트 기반의 Rubrics를 따르며, 이를 평가하기 위해 ShotJudge 패러다임을 도입했다.#Review#XpertBench#LLM Evaluation#Expert-level Cognition#Rubrics-based Assessment#ShotJudge#Ecological Validity2026년 4월 5일댓글 수 로딩 중