#Validity

2개의 포스트

[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.

#Review #LLM Judge #Benchmark Evaluation #Validity #Reliability #Psychometrics #Factor Analysis #Schema Adherence #ELO Ranking

2025년 9월 26일

[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.

#Review #LLMs as Judges #NLG Evaluation #Measurement Theory #Validity #Reliability #Evaluation Bias #Scalability #Responsible AI

2025년 8월 26일