[논문리뷰] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization본 논문은 Video Diffusion Model의 효율적인 정렬(Alignment)을 위한 단일 단계(Single-step) 훈련 프레임워크인 Flash-GRPO를 제안합니다 .#Review#Video Diffusion Models#Group Relative Policy Optimization#Reinforcement Learning#Single-step Training#Iso-temporal Grouping#Temporal Gradient Rectification#Alignment2026년 5월 17일댓글 수 로딩 중