#Gibbs Target

1개의 포스트

[논문리뷰] Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

본 논문은 현재의 Critic-free, group-based RLVR 기법들이 사용하는 advantage normalization이 실제로는 응답 심플렉스 위에서 잠재적인 목표 분포를 암묵적으로 구성하고 있음을 규명합니다.

#Review #RLVR #Policy Optimization #Listwise #Target-Projection #Large Language Models #Reasoning #Gibbs Target

2026년 5월 10일