[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.#Review#DeepResearch#Rubric Generation#Human Preferences#Reinforcement Learning#Multi-agent Systems#LLM Evaluation#Reward Modeling2026년 2월 3일댓글 수 로딩 중