#Bias-Variance Tradeoff

1개의 포스트

[논문리뷰] Towards a Unified View of Large Language Model Post-Training

본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Post-Training #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient #Unified Framework #Hybrid Algorithms #Bias-Variance Tradeoff

2025년 9월 5일