[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.#Review#Reinforcement Learning#Agentic Post-Training#On-Policy Rollout#Pivot Turn#Functional Equivalence#LLM Fine-Tuning2026년 3월 23일댓글 수 로딩 중