본문으로 건너뛰기

[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

링크: 논문 PDF로 바로 열기

저자: Kaichi Yu, Hao Zhou, Shuaiting Chen, Haotian Wang, Xiaoyu Tian

핵심 연구 목표

논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다. 이를 통해 확장 가능한 데이터 합성과 검증 가능한 다중 턴 강화 학습을 통해 강력하고 일반화 가능한 도구 사용 에이전트를 훈련하는 것을 목표로 합니다.

핵심 방법론

ASTRA는 두 가지 상호 보완적인 구성 요소를 통합합니다. 첫째, 도구 호출 그래프의 정적 토폴로지 를 활용하여 다양하고 구조적으로 기반을 둔 궤적을 합성하는 파이프라인으로 SFT(Supervised Fine-Tuning) 에 사용됩니다. 둘째, 인간의 의미론적 추론의 풍부한 구성적 토폴로지 를 포착하여 분해된 질의-응답 트레이스를 독립적이고 코드 실행 가능하며 규칙 검증 가능한 환경으로 변환하는 환경 합성 프레임워크로 RL(Reinforcement Learning) 에 활용됩니다. F1-스타일 궤적 수준 보상무관한 도구 혼합(Irrelevant Tool Mixing) 을 사용한 온라인 다중 턴 RL을 통해 효율성을 극대화합니다.

주요 결과

ASTRA 로 훈련된 모델은 여러 에이전틱 도구 사용 벤치마크( BFCL-v3 Multi-Turn , τ²-Bench , ACEBench )에서 동급 모델 중 최첨단 성능 을 달성했습니다. 특히, ASTRA-32B-Thinking-v1 은 BFCL-MT에서 64.25% , τ²-Bench에서 63.70% , ACEBench에서 71.88% 의 전체 점수를 기록하며, 기존 모델 대비 상당한 성능 향상을 보였습니다. 또한, AIME2024AIME2025 와 같은 비-에이전틱 복합 추론 태스크에서 핵심 추론 능력의 저하 없이 견고한 동작을 입증했습니다.

AI 실무자를 위한 시사점

ASTRA는 도구 사용 에이전트 훈련을 위한 완전히 자동화되고 확장 가능한 해결책 을 제공하여 수동 작업을 줄이고 모델의 견고성을 향상시킵니다. 규칙 검증 가능한 환경도구 호출 그래프 및 의미론적 추론 기반의 궤적 합성 능력은 안정적인 다중 턴 RL에 중요하며, 이는 실제 AI 어시스턴트 개발에 필수적입니다. F1-스타일 보상 설계무관한 도구 혼합 전략 은 에이전트의 도구 선택 및 상호작용 효율성을 높이는 실용적인 방법론을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글