본문으로 건너뛰기

#Variance Reduction

7개의 포스트

[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

댓글 수 로딩 중

[논문리뷰] MARS-M: When Variance Reduction Meets Matrices

댓글 수 로딩 중

[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

댓글 수 로딩 중

[논문리뷰] ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

댓글 수 로딩 중