#LLM-as-a-judge

4개의 포스트

[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

본 논문은 대규모 언어 모델(LLM)을 요약 평가 심사관으로 활용할 때 발생하는 overlap bias 를 심층적으로 분석하는 것을 목표로 합니다.

#Review #LLM-as-a-judge #Summarization Evaluation #Overlap Bias #Position Bias #N-gram Metrics #Gemma #Llama #Evaluation Bias

2026년 2월 16일

[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.

#Review #Generative Research Synthesis #Live Benchmark #Automated Evaluation #LLM-as-a-judge #Related Work Generation #Retrieval-Augmented Generation #Verifiability

2025년 8월 28일

[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Reasoning Models #LLM-as-a-judge #MQM #Fine-tuning #Thinking Calibration #Computational Efficiency #Meta-evaluation

2025년 10월 27일

[논문리뷰] Who's Your Judge? On the Detectability of LLM-Generated Judgments

본 논문은 LLM이 생성한 평가(judgment)를 인간의 평가와 구별하는 판단 탐지(judgment detection) 태스크를 제안하고, 그 탐지 가능성을 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM-as-a-judge #Judgment Detection #Bias Quantification #Feature Engineering #Interpretability #Peer Review #AI Ethics #Evaluation

2025년 10월 1일