#Token Weighting

1개의 포스트

[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization

본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Importance Sampling #Policy Optimization #PPO-Clip #Outcome-Supervised RL #Token Weighting #GRPO

2025년 10월 8일