#JS-divergence

1개의 포스트

[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models (LLMs)#Diversity Collapse #f-divergence #Forward-KL #JS-divergence #Pass@k #Catastrophic Forgetting

2025년 9월 12일