[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.#Review#Conversational Recommender Systems#Large Language Models#Reinforcement Learning#Group Relative Policy Optimization#Rank-based Learning#Supervised Fine-tuning#Reward Shaping2025년 11월 9일댓글 수 로딩 중