[논문리뷰] PORTool: Tool-Use LLM Training with Rewarded Tree기존 도구 사용 LLM이 정적 데이터셋에 의존하여 동적이고 실제적인 도구 호출 환경에서 탐색 능력이 제한되고 낮은 성능을 보이는 문제를 해결합니다.#Review#Tool-Use LLM#Reinforcement Learning (RL)#Policy Optimization#Rewarded Tree#Trajectory Optimization#Agentic System#Dynamic Tool Call2025년 10월 31일댓글 수 로딩 중