[논문리뷰] NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning본 연구는 Flow-matching 모델의 RL post-training 시 발생하는 reward over-optimization과 그에 따른 지각적 품질 저하 문제를 해결합니다.#Review#Reinforcement Learning#Flow-Matching#Norm Inflation#Reward-Preserving#Perceptual Quality#Regularization2026년 6월 28일댓글 수 로딩 중