#Temporal Credit Assignment

1개의 포스트

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.

#Review #Flow Matching #Reinforcement Learning #Human Preference Alignment #GRPO #Temporal Credit Assignment #Generative AI #Text-to-Image

2025년 8월 20일