[논문리뷰] Hölder Policy Optimisation본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.#Review#Reinforcement Learning#Large Language Models#Hölder Mean#Gradient Concentration#Policy Optimisation#Group Relative Policy Optimisation (GRPO)2026년 5월 17일댓글 수 로딩 중