본문으로 건너뛰기

#Human Preference Alignment

4개의 포스트

[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste

댓글 수 로딩 중

[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

댓글 수 로딩 중

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

댓글 수 로딩 중

[논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models

댓글 수 로딩 중