#Agentic Post-Training

1개의 포스트

[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.

#Review #Reinforcement Learning #Agentic Post-Training #On-Policy Rollout #Pivot Turn #Functional Equivalence #LLM Fine-Tuning

2026년 3월 23일