[논문리뷰] Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO본 논문은 GRPO (Group Relative Policy Optimization) 기반 LLM 학습에서 rollout diversity를 향상시키기 위한 새로운 차원을 식별한다.#Review#GRPO#LLMs#Policy-Level Diversity#Token-Level Diversity#S2L-PO#Reinforcement Learning#Mathematical Reasoning#Parameter-Level Compression2026년 6월 14일댓글 수 로딩 중