#S2L-PO

1개의 포스트

[논문리뷰] Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

본 논문은 GRPO (Group Relative Policy Optimization) 기반 LLM 학습에서 rollout diversity를 향상시키기 위한 새로운 차원을 식별한다.

#Review #GRPO #LLMs #Policy-Level Diversity #Token-Level Diversity #S2L-PO #Reinforcement Learning #Mathematical Reasoning #Parameter-Level Compression

2026년 6월 14일