#Tool-Augmented Reasoning

2개의 포스트

[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLM Training #Hierarchical Credit Assignment #Trajectory Alignment #Group Relative Policy Optimization #Tool-Augmented Reasoning #Vertical Architecture

2025년 11월 24일

[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling

논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.

#Review #Research Agent #Tool-Augmented Reasoning #Interaction Scaling #Large Language Models #Reinforcement Learning #Context Management #Open-Source AI

2025년 11월 17일