[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .#Review#Recommender Systems#Large Language Models#Product Reranking#Preference Memory#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중