[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLM Training#Hierarchical Credit Assignment#Trajectory Alignment#Group Relative Policy Optimization#Tool-Augmented Reasoning#Vertical Architecture2025년 11월 24일댓글 수 로딩 중
[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.#Review#Research Agent#Tool-Augmented Reasoning#Interaction Scaling#Large Language Models#Reinforcement Learning#Context Management#Open-Source AI2025년 11월 17일댓글 수 로딩 중