[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .#Review#Multi-Agent RL#LLM Workflows#Reinforcement Learning#Policy-Sharing#Gradient Dynamics#Role Drift2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.#Review#Multi-Agent RL#Tool-Integrated Planning#Large Language Models (LLMs)#Policy Optimization#Credit Assignment#Reinforcement Learning#MATPO2025년 10월 9일댓글 수 로딩 중