[논문리뷰] Reasoning-Aware GRPO using Process Mining본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Process Mining#Policy Optimization#Mathematical Reasoning#GRPO#PM4GRPO2025년 10월 30일댓글 수 로딩 중