#Gradient Concentration

1개의 포스트

[논문리뷰] Hölder Policy Optimisation

본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.

#Review #Reinforcement Learning #Large Language Models #Hölder Mean #Gradient Concentration #Policy Optimisation #Group Relative Policy Optimisation (GRPO)

2026년 5월 17일