#Trajectory Distribution Matching

1개의 포스트

[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Non-Differentiable Rewards #Few-Step Generation #Trajectory Distribution Matching #Surrogate Reward Learning #Text-to-Image

2026년 3월 9일