#Coin Flipping Network

1개의 포스트

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일