#LLM-Judge Bias Mitigation

1개의 포스트

[논문리뷰] ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

본 논문은 기존 LLM 평가 벤치마크가 쉬운 검증 태스크에 국한되어 있다는 한계를 극복하고, 전문가 수준의 지식 을 요구하는 복잡한 실세계 다중 도메인 태스크 에 대한 LLM 성능을 평가하기 위한 ProfBench 벤치마크를 제안합니다.

#Review #LLM Evaluation #Rubric-based Benchmark #Professional Knowledge #Multi-domain Tasks #LLM-Judge Bias Mitigation #Cost Reduction #Reasoning Assessment #Open-weight Models

2025년 10월 23일