#Reward Functions

1개의 포스트

[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.

#Review #Reinforcement Learning #World Models #Video Generation #Autoregressive Generation #Long-Horizon #Post-training #Diffusion Models #Reward Functions

2026년 2월 9일