[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.#Review#Reinforcement Learning (RL)#Flow-based Models#Vision-Language-Action (VLA) Models#Online Learning#Stochastic Differential Equation (SDE)#Contrastive Learning#Embodied AI#Robotics2026년 3월 8일댓글 수 로딩 중