#Offline Reinforcement Learning

2개의 포스트

[논문리뷰] Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

최근 Vision-Language-Action (VLA) model의 발전은 large-scale multi-robot dataset을 통해 robot policy를 pretrain하는 데 큰 진전을 보였습니다.

#Review #Offline Reinforcement Learning #Vision-Language-Action Models #Data Reweighting #Posterior-Transition Reweighting #Cross-Embodiment Transfer #Robot Learning

2026년 3월 18일

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일