[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary EvaluationPuneet Mathur이 arXiv에 게시한 'Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance BoostMin Yang이 arXiv에 게시한 'Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost' 논문에 대한 자세한 리뷰입니다.2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Who's Your Judge? On the Detectability of LLM-Generated JudgmentsarXiv에 게시된 'Who's Your Judge? On the Detectability of LLM-Generated Judgments' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research SynthesisIon Stoica이 arXiv에 게시한 'DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis' 논문에 대한 자세한 리뷰입니다.2025년 8월 28일댓글 수 로딩 중