[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.#Review#LLM Evaluation#Reward Models#Rubric-Guided Evaluation#Benchmarks#Model Alignment#Human Standards#Cognitive Misalignment2026년 3월 2일댓글 수 로딩 중