#Reward Rectification

1개의 포스트

[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization #Reward Rectification #Dynamic Fine-Tuning (DFT)#LLM #Policy Gradient #Mathematical Reasoning

2025년 8월 8일