#Multi-Agent RL

2개의 포스트

[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .

#Review #Multi-Agent RL #LLM Workflows #Reinforcement Learning #Policy-Sharing #Gradient Dynamics #Role Drift

2026년 6월 1일

[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization

본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.

#Review #Multi-Agent RL #Tool-Integrated Planning #Large Language Models (LLMs)#Policy Optimization #Credit Assignment #Reinforcement Learning #MATPO

2025년 10월 9일