[논문리뷰] Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models본 논문은 기존의 강화학습 미세 조정 기법이 Flow Matching 모델의 고유한 확률적 역학을 충분히 고려하지 못하여 발생하는 성능 불안정성 문제를 해결합니다.#Review#Flow Matching#RLHF#Proximal Policy Optimization#Divergence Constraint#Policy Optimization2026년 6월 9일댓글 수 로딩 중