#Hierarchical Credit Assignment

1개의 포스트

[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLM Training #Hierarchical Credit Assignment #Trajectory Alignment #Group Relative Policy Optimization #Tool-Augmented Reasoning #Vertical Architecture

2025년 11월 24일