[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation본 논문은 대규모 언어 모델(LLM)을 요약 평가 심사관으로 활용할 때 발생하는 overlap bias 를 심층적으로 분석하는 것을 목표로 합니다.#Review#LLM-as-a-judge#Summarization Evaluation#Overlap Bias#Position Bias#N-gram Metrics#Gemma#Llama#Evaluation Bias2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Neither Valid nor Reliable? Investigating the Use of LLMs as Judges본 논문은 NLG(Natural Language Generation) 시스템 평가에서 LLM(Large Language Model)을 심사관(LLJ) 으로 활용하는 방식의 광범위한 채택이 성급했음을 주장하며, 그 신뢰성(reliability) 과 타당성(validity) 에 대한 엄격한 조사를 목표로 합니다.#Review#LLMs as Judges#NLG Evaluation#Measurement Theory#Validity#Reliability#Evaluation Bias#Scalability#Responsible AI2025년 8월 26일댓글 수 로딩 중