[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.#Review#Reinforcement Learning#Factuality#Process Supervision#Wikipedia#Co-occurrence#Large Language Models#GRPO2026년 5월 28일댓글 수 로딩 중