#Policy Search

1개의 포스트

[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Policies #Test-Time Guidance #Gradient-based Optimization #Trajectory Optimization #Policy Search

2026년 6월 9일