#Divergence Constraint

1개의 포스트

[논문리뷰] Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

본 논문은 기존의 강화학습 미세 조정 기법이 Flow Matching 모델의 고유한 확률적 역학을 충분히 고려하지 못하여 발생하는 성능 불안정성 문제를 해결합니다.

#Review #Flow Matching #RLHF #Proximal Policy Optimization #Divergence Constraint #Policy Optimization

2026년 6월 9일