[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.#Review#RLVR#Policy Optimization#Listwise#Target-Projection#Large Language Models#Reasoning#Gibbs Target2026년 5월 10일댓글 수 로딩 중