#Self-Grading

1개의 포스트

[논문리뷰] Training AI Co-Scientists Using Rubric Rewards

언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.

#Review #AI Co-Scientists #Research Plan Generation #Reinforcement Learning (RL)#Self-Grading #Rubric Rewards #Language Models (LLMs)#Scientific Discovery

2025년 12월 29일