[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLM Training#Hierarchical Credit Assignment#Trajectory Alignment#Group Relative Policy Optimization#Tool-Augmented Reasoning#Vertical Architecture2025년 11월 24일댓글 수 로딩 중