[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.#Review#Multi-Agent LLM#Reinforcement Learning#Training Stability#GRPO#Agent-wise Normalization#Gradient Explosion#LLM Orchestration2026년 2월 10일댓글 수 로딩 중