#On-Policy RL

3개의 포스트

[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning #FP8 Quantization #LLM Training #On-Policy RL #Unified Precision Flow #Training Efficiency #Rollout Acceleration

2026년 1월 25일

[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Supervised Fine-Tuning #On-Policy RL #Off-Policy Experts #Dynamic Weighting #LLM Alignment #Reasoning

2025년 8월 21일

[논문리뷰] Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

본 논문은 대규모 언어 모델(LLM) 에이전트의 성능 향상을 위해 다중 에이전트 시스템(MAS) 과 강화 학습(RL) 을 통합하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Reinforcement Learning (RL)#Multi-Agent Systems (MAS)#On-Policy RL #Collaborative AI #Agentic LLMs #Group-based Optimization

2025년 10월 16일