[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Anti-Exploration#Test-Time Scaling#Pseudo-Count#Coin Flipping Network#Offline Reinforcement Learning#Robotics2025년 12월 3일댓글 수 로딩 중