#Semantic Neighbor Mixing

1개의 포스트

[논문리뷰] N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization

본 연구는 LLM의 강화학습 과정 중 Rollout 단계에서 발생하는 효과적인 탐색(Exploration)의 부족과 기존 방법론의 한계점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Semantic Neighbor Mixing #Policy Optimization #Embedding Space #Latent Reasoning

2026년 6월 11일