#Importance Sampling (IS) Ratio

1개의 포스트

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일