[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Non-Differentiable Rewards#Few-Step Generation#Trajectory Distribution Matching#Surrogate Reward Learning#Text-to-Image2026년 3월 9일댓글 수 로딩 중