[논문리뷰] EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL본 논문은 Large Language Models (LLMs)에 tool-use capabilities를 부여하는 Agentic Reinforcement Learning (Agentic RL)이 겪는 두 가지 주요 bottleneck, 즉 scalable하고 robust한 executable environments의 부족과 implicit human reasoning을 포착하는 현실적인 training data의 희소성을…#Review#Agentic Reinforcement Learning#Tool-Use Agents#Environment Synthesis#Trajectory Generation#Dependency Graph#LLM Post-training2026년 5월 19일댓글 수 로딩 중