[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.#Review#Agentic Reinforcement Learning#Multi-Turn Reasoning#Uncertainty-Guided Exploration#Token-Level Thinking Intervention#Turn-Level Dynamical Sampling#Training Stability2026년 5월 4일댓글 수 로딩 중