[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation본 논문은 대규모 언어 모델(LLM)을 요약 평가 심사관으로 활용할 때 발생하는 overlap bias 를 심층적으로 분석하는 것을 목표로 합니다.#Review#LLM-as-a-judge#Summarization Evaluation#Overlap Bias#Position Bias#N-gram Metrics#Gemma#Llama#Evaluation Bias2026년 2월 16일댓글 수 로딩 중
[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.#Review#Generative Research Synthesis#Live Benchmark#Automated Evaluation#LLM-as-a-judge#Related Work Generation#Retrieval-Augmented Generation#Verifiability2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost본 논문은 대규모 추론 모델(LRMs)이 기계 번역(MT) 품질 평가자로서 어떤 성능을 보이는지 체계적으로 분석하고, 그 과정에서 발생하는 비효율성과 한계를 식별하는 것을 목표로 합니다.#Review#Machine Translation Evaluation#Large Reasoning Models#LLM-as-a-judge#MQM#Fine-tuning#Thinking Calibration#Computational Efficiency#Meta-evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Who's Your Judge? On the Detectability of LLM-Generated Judgments본 논문은 LLM이 생성한 평가(judgment)를 인간의 평가와 구별하는 판단 탐지(judgment detection) 태스크를 제안하고, 그 탐지 가능성을 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM-as-a-judge#Judgment Detection#Bias Quantification#Feature Engineering#Interpretability#Peer Review#AI Ethics#Evaluation2025년 10월 1일댓글 수 로딩 중