#Evidence-based Evaluation

1개의 포스트

[논문리뷰] Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

본 논문은 LLM post-training에서 활용되는 기존의 reward evaluation 방식이 이질적인 평가 기준을 통합하는 데 한계를 보이고 있다는 점을 지적한다.

#Review #Reward Modeling #Agent Skills #LLM-as-a-Judge #Reinforcement Learning #Instruction Following #Evidence-based Evaluation

2026년 6월 8일