[논문리뷰] Personalizing Text-to-Image Generation to Individual Taste본 논문은 기존의 T2I 모델이 개인의 미세한 취향을 반영하지 못하고 다수의 평균적인 선호도에만 최적화되어 있다는 점을 해결하고자 합니다. 대다수의 기존 reward model은 대규모 데이터셋을 통해 '평균적인 미적 기준'을 학습하지만, 이는 개개인의 주관적이고 다양한 미적 취향을 반영하는 데 한계가 있습니다.#Review#Text-to-Image Generation#Personalization#Reward Modeling#Human Preference Alignment#Subjective Aesthetics2026년 4월 9일댓글 수 로딩 중
[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models기존 GRPO(Group Relative Policy Optimization) 기반의 플로우 모델들이 여러 디노이징 타임스텝에 걸쳐 정책을 최적화할 때 발생하는 희소하고 모호한 보상 신호 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#Flow Models#Entropy-aware Sampling#Group Relative Policy Optimization#SDE#Human Preference Alignment#Image Generation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.#Review#Flow Matching#Reinforcement Learning#Human Preference Alignment#GRPO#Temporal Credit Assignment#Generative AI#Text-to-Image2025년 8월 20일댓글 수 로딩 중
[논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models본 논문은 확산 및 플로우 모델에서 인간 선호도에 맞춰 생성 모델을 정렬하는 기존 GRPO(Group Relative Policy Optimization) 방법론의 한계, 즉 희소하고 부정확한 보상 신호 및 불완전한 평가 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Flow Models#Generative Models#Human Preference Alignment#Stochastic Differential Equations (SDE)#Reward Signal#Multi-Granularity2025년 10월 9일댓글 수 로딩 중