[논문리뷰] Towards a Unified View of Large Language Model Post-Training본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Post-Training#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient#Unified Framework#Hybrid Algorithms#Bias-Variance Tradeoff2025년 9월 5일댓글 수 로딩 중