#Dense Reward

1개의 포스트

[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Flow Matching Models #Dense Reward #Sparse Reward Problem #Preference Alignment #SDE Sampler #GRPO #Text-to-Image Generation

2026년 2월 1일