[논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration기존의 비디오 생성 모델 정렬 기법들은 주로 노이즈 기반의 탐색(exploration)이나 SDE 기반의 surrogate policy를 사용하여, 결정론적(deterministic) ODEdynamics로 작동하는 distilled AR 모델의 특성과 상충하는 문제를 야기합니다 .#Review#Autoregressive Video Generation#Reinforcement Learning#Policy Optimization#Flow Matching#KV Caching#Causal-Semantic Exploration#Trajectory Velocity Energy2026년 5월 18일댓글 수 로딩 중