#Evaluation Bias

2개의 포스트

[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

본 논문은 대규모 언어 모델(LLM)을 요약 평가 심사관으로 활용할 때 발생하는 overlap bias 를 심층적으로 분석하는 것을 목표로 합니다.

#Review #LLM-as-a-judge #Summarization Evaluation #Overlap Bias #Position Bias #N-gram Metrics #Gemma #Llama #Evaluation Bias

2026년 2월 16일

[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges

본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.

#Review #LLMs as Judges #NLG Evaluation #Measurement Theory #Validity #Reliability #Evaluation Bias #Scalability #Responsible AI

2025년 8월 26일