#LLM-as-Judge

5개의 포스트

[논문리뷰] AdvancedMathBench: A Benchmark Suite for Advanced Mathematical Proof Generation and Verification

본 논문은 기존의 수학 벤치마크가 고등 수학 및 연구 수준의 증명 능력을 평가하기에는 범위와 입도가 부족하다는 문제를 해결하고자 합니다.

#Review #Advanced Mathematics #Proof Generation #Process Verification #LLM-as-Judge #Mathematical Reasoning #Benchmark #Automatic Verification Pipeline

2026년 7월 13일

[논문리뷰] FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

본 논문은 기존의 금융 벤치마크가 지닌 한계를 극복하고 LLM의 실질적인 금융 전문 역량을 정밀하게 진단하기 위해 FINESSE-Bench를 제안한다.

#Review #Large Language Models #Financial Benchmarking #Difficulty Hierarchy #Technical Analysis #LLM-as-Judge #Professional Competence #Financial Reasoning

2026년 5월 18일

[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

본 논문은 기존 모바일 GUI 에이전트 벤치마크가 메모리 능력을 체계적으로 평가하지 못하고 메모리 관련 태스크 비중이 5.2-11.8%에 불과 하며 교차 세션 학습 평가가 부재하다는 문제를 제기합니다.

#Review #Mobile GUI Agents #Memory Benchmarking #Short-Term Memory #Long-Term Memory #LLM-as-Judge #Dynamic Environments #Evaluation Metrics #Task Automation

2026년 2월 8일

[논문리뷰] EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

본 논문은 금융 Q&A에서 회피성 답변(evasive answers) 을 탐지하는 데 필요한 대규모 고품질 벤치마크 부재 와 모호한 경계 사례에 대한 일관성 없는 레이블링 문제를 해결하고자 합니다. 특히 부분적으로 응답하는 답변과 완전한 회피성 답변 사이의 미묘한 경계에 대한 양질의 감독 데이터 확보를 목표로 합니다.

#Review #Evasion Detection #Financial NLP #Large Language Models (LLMs)#Multi-Model Consensus #LLM-as-Judge #Data Annotation #Knowledge Distillation #Hard Sample Mining

2026년 1월 15일

[논문리뷰] DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

본 논문은 기존 벤치마크가 놓치고 있는 실제 기업 데이터 인텔리전스 워크플로우의 복잡성 을 반영하여, 데이터 에이전트의 포괄적인 성능을 평가 하는 DAComp 벤치마크를 제시합니다.

#Review #Data Agents #Benchmarking #Data Engineering #Data Analysis #LLM-as-Judge #Full Data Intelligence Lifecycle #Repository-Level #Open-Ended Tasks

2025년 12월 4일