[논문리뷰] TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics본 논문은 로봇 공학 분야의 주요 병목 현상인 보상 모델링 문제를 해결하기 위해, 사전 훈련된 Vision-Language Models (VLMs) 의 내부 토큰 확률 을 활용하여 제로-샷(zero-shot) 진척도(progress) 추정 을 가능하게 하는 것을 목표로 합니다.#Review#Robotics#Reward Modeling#Vision-Language Models#Zero-Shot Learning#Token Probabilities#Progress Estimation#Behavior Cloning#Manipulation2026년 2월 23일댓글 수 로딩 중