[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Flow Matching Models#Dense Reward#Sparse Reward Problem#Preference Alignment#SDE Sampler#GRPO#Text-to-Image Generation2026년 2월 1일댓글 수 로딩 중