[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.#Review#Reinforcement Learning#FP8 Quantization#LLM Training#On-Policy RL#Unified Precision Flow#Training Efficiency#Rollout Acceleration2026년 1월 25일댓글 수 로딩 중