[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.#Review#Reinforcement Learning#Language Models#Diversity Optimization#Quality Enhancement#Semantic Clustering#Post-training#Generative AI2025년 9월 3일댓글 수 로딩 중