[논문리뷰] Variational Reasoning for Language Models언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.#Review#Variational Inference#Language Models#Reasoning#ELBO#IWAE#Reinforcement Learning#Latent Variables#Forward-KL2025년 9월 29일댓글 수 로딩 중
[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models (LLMs)#Diversity Collapse#f-divergence#Forward-KL#JS-divergence#Pass@k#Catastrophic Forgetting2025년 9월 12일댓글 수 로딩 중