#Variance Reduction

8개의 포스트

[논문리뷰] OPRD: On-Policy Representation Distillation

본 논문은 Large Language Models (LLMs)의 Post-training에 필수적인 On-Policy Distillation (OPD) 방식의 본질적인 두 가지 한계점을 지적하며, 이를 해결하기 위한 새로운 접근 방식인 OPRD (On-Policy Representation Distillation)를 제안합니다.

#Review #On-Policy Distillation #Representation Distillation #Large Language Models #Knowledge Distillation #Hidden States #Mathematical Reasoning #Variance Reduction

2026년 6월 4일

[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Large Language Model (LLM)의 Post-training에 있어 On-policy Distillation (OPD)은 student-generated rollouts에 대한 teacher feedback을 활용하기 때문에 매력적이다.

#Review #On-policy Distillation #LLM Post-training #Sampled-token OPD #Variance Reduction #Local Support Matching #Truncated Reverse-KL #Top-p Rollout Sampling #Special Token Masking

2026년 3월 26일

[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

LLM(Large Language Models)을 위한 오프-정책(off-policy) 강화 학습 훈련 시 발생하는 불안정성 문제, 즉 정책 노후화(policy staleness), 비동기 훈련, 훈련-추론 불일치로 인한 높은 중요도 샘플링(IS) 분산을 해결하는 것을 목표로 합니다.

#Review #Off-Policy RL #LLM Training #Importance Sampling #Variance Reduction #Variational Optimization #Policy Gradient #Sequence-Level Optimization #Reinforcement Learning

2026년 2월 22일

[논문리뷰] Online Causal Kalman Filtering for Stable and Effective Policy Optimization

대규모 언어 모델(LLM)의 강화 학습(RL)에서 토큰 수준 중요도 샘플링(IS) 비율의 높은 분산이 정책 최적화의 불안정성을 야기하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Policy Optimization #Importance Sampling (IS) Ratio #Kalman Filter #Variance Reduction #Math Reasoning

2026년 2월 11일

[논문리뷰] Single-stream Policy Optimization

본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Optimization #Policy Gradient #Variance Reduction #Adaptive Sampling #Scalability #Agentic Systems #RLVR

2025년 9월 17일

[논문리뷰] MARS-M: When Variance Reduction Meets Matrices

본 논문은 대규모 언어 모델(LLM) 및 딥러닝 모델 훈련의 효율성과 안정성을 향상시키기 위해, 행렬 기반 전처리 옵티마이저 의 장점과 분산 감소(variance reduction) 기법 의 장점을 결합하는 것을 목표로 합니다.

#Review #Variance Reduction #Matrix-based Optimizer #LLM Training #Deep Learning Optimization #Moonlight #MARS-M #Stochastic Gradient Descent

2025년 10월 28일

[논문리뷰] Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

LLM의 추론 태스크를 위한 강화 학습(RL) 훈련에서 고정 및 균일한 응답 샘플링 으로 인해 발생하는 불안정한 그래디언트 추정 과 '신호 붕괴(signal collapse)' 문제를 해결하는 것이 주된 목표입니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Adaptive Sampling #Policy Gradient #Reward Optimization #Signal Collapse #Variance Reduction

2025년 10월 7일

[논문리뷰] ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

본 논문은 분포 매칭(distribution matching)에서 널리 사용되는 Sliced Wasserstein Distance (SWD) 의 Monte Carlo 추정기가 겪는 높은 분산 문제를 해결하고자 합니다.

#Review #Sliced Wasserstein Distance #Reservoir Sampling #Variance Reduction #Distribution Matching #Diffusion Guidance #Color Correction #Monte Carlo Estimation

2025년 10월 2일