[논문리뷰] Training AI Co-Scientists Using Rubric Rewards언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.#Review#AI Co-Scientists#Research Plan Generation#Reinforcement Learning (RL)#Self-Grading#Rubric Rewards#Language Models (LLMs)#Scientific Discovery2025년 12월 29일댓글 수 로딩 중