[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .#Review#Multi-Agent RL#LLM Workflows#Reinforcement Learning#Policy-Sharing#Gradient Dynamics#Role Drift2026년 6월 1일댓글 수 로딩 중