[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.#Review#Reinforcement Learning#FP8 Quantization#LLM Training#On-Policy RL#Unified Precision Flow#Training Efficiency#Rollout Acceleration2026년 1월 25일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs본 논문은 대규모 언어 모델(LLM) 에이전트의 성능 향상을 위해 다중 에이전트 시스템(MAS) 과 강화 학습(RL) 을 통합하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Reinforcement Learning (RL)#Multi-Agent Systems (MAS)#On-Policy RL#Collaborative AI#Agentic LLMs#Group-based Optimization2025년 10월 16일댓글 수 로딩 중