#User Preference Alignment

1개의 포스트

[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Multi-Reward Learning #Flow Matching #User Preference Alignment #Training Efficiency #Compositional Reasoning #Conditional Generation

2025년 10월 31일