[논문리뷰] N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization본 연구는 LLM의 강화학습 과정 중 Rollout 단계에서 발생하는 효과적인 탐색(Exploration)의 부족과 기존 방법론의 한계점을 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#GRPO#Semantic Neighbor Mixing#Policy Optimization#Embedding Space#Latent Reasoning2026년 6월 11일댓글 수 로딩 중