#Self-Referential Learning

1개의 포스트

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일