[논문리뷰] ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge본 논문은 기존 LLM 평가 벤치마크가 쉬운 검증 태스크에 국한되어 있다는 한계를 극복하고, 전문가 수준의 지식 을 요구하는 복잡한 실세계 다중 도메인 태스크 에 대한 LLM 성능을 평가하기 위한 ProfBench 벤치마크를 제안합니다.#Review#LLM Evaluation#Rubric-based Benchmark#Professional Knowledge#Multi-domain Tasks#LLM-Judge Bias Mitigation#Cost Reduction#Reasoning Assessment#Open-weight Models2025년 10월 23일댓글 수 로딩 중