[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.#Review#Reward Modeling#Rubric-based Evaluation#Reinforcement Learning#Pointwise Reward#LLM Alignment#Preference Optimization2026년 5월 28일댓글 수 로딩 중