[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중