#Reward-Preserving

1개의 포스트

[논문리뷰] NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

본 연구는 Flow-matching 모델의 RL post-training 시 발생하는 reward over-optimization과 그에 따른 지각적 품질 저하 문제를 해결합니다.

#Review #Reinforcement Learning #Flow-Matching #Norm Inflation #Reward-Preserving #Perceptual Quality #Regularization

2026년 6월 28일