#Factorized Policy

1개의 포스트

[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.

#Review #LLM #Reinforcement Learning #Retrieval & Ranking #GRPO #Factorized Policy #Sequential Recommendation #Multi-hop Question Answering

2026년 5월 13일