[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.#Review#LLM#Instruction Following#Reinforcement Learning#Rubric-based Evaluation#Benchmarking#Reward Shaping#Rubric Verifier#AdvancedIF2025년 11월 13일댓글 수 로딩 중