[논문리뷰] Orchestra-o1: Omnimodal Agent Orchestration

2026년 6월 14일수정: 2026년 6월 14일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng

1. Key Terms & Definitions (핵심 용어 및 정의)

Omnimodal Agent Orchestration: 다양한 데이터 소스(Text, Image, Audio, Video)를 통합 처리하기 위해 주 에이전트(Main Agent)가 하위 전문 에이전트(Sub-agent)를 계획, 할당, 조율하는 프레임워크입니다.
Modality-aware Task Decomposition: 전체 작업을 하위 작업으로 나눌 때, 각 작업이 요구하는 데이터 양식(Modality)을 식별하여 가장 적합한 Sub-agent와 도구에 배정하는 기술입니다.
DA-GRPO (Decision-aligned Group Relative Policy Optimization): 에이전트의 오케스트레이션 결정을 최적화하기 위해 제안된 강화학습 알고리즘으로, 최종 답변뿐만 아니라 작업 위임, 도구 선택 등 중간 의사결정 단계까지 전문가 경로(Reference Trajectory)와 정렬(Alignment)합니다.
Flexible Agentic Backends: 특정 작업을 수행하는 하위 에이전트 모델을 고정하지 않고, 비용, 지연 시간, 성능 요구사항에 따라 동적으로 선택할 수 있는 유연한 설계 방식입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 LLM 기반 에이전트가 단일 양식 혹은 제한적인 멀티모달 환경에 최적화되어 있어, 실생활의 복잡한 옴니모달(Omnimodal) 작업을 처리하는 데 한계가 있다는 문제의식에서 출발합니다. 기존의 Native Omnimodal Agents는 인지, 추론, 행동을 하나의 모델이 동시에 수행하려 함으로써 복잡한 작업에서 성능 저하를 겪으며, 기존의 오케스트레이션 프레임워크는 경직된 선형 구조로 인해 효율성과 확장성이 부족합니다 [Figure 1]. 따라서 저자들은 인지(Perception)와 행동(Action)을 고수준의 추론/오케스트레이션과 분리하여, 모듈화된 협업 시스템을 통해 옴니모달 작업의 효율성을 극대화할 수 있는 새로운 프레임워크가 필요하다고 주장합니다.

Figure 1: 옴니모달 에이전트 유형 비교

Figure 1 — 옴니모달 에이전트 유형 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 옴니모달 작업의 효율적 협업을 위해 하이레벨 오케스트레이션과 로우레벨 실행을 분리한 Orchestra-o1 프레임워크를 제안합니다 [Figure 2]. 이 프레임워크는 의존성 기반의 병렬 작업 실행을 통해 Latency를 크게 줄이며, 요구사항 매칭(Requirement Matching)을 통해 최적의 Sub-agent backend와 도구를 할당합니다. 또한, 오픈 소스 모델(예: Qwen3-8B)이 효과적으로 오케스트레이션을 수행하도록 훈련하기 위해 DA-GRPO를 도입하여 단계별 의사결정의 정밀도를 향상시켰습니다 [Figure 3].

Figure 2: Orchestra-o1 프레임워크 개요

Figure 2 — Orchestra-o1 프레임워크 개요

Figure 3: 학습 레시피 및 DA-GRPO 과정

Figure 3 — 학습 레시피 및 DA-GRPO 과정

주요 실험 결과, OmniGAIA 벤치마크에서 GPT-5를 주 에이전트로 활용한 Orchestra-o1은 기존의 최고 성능 모델인 Gemini-3-Pro 대비 10.3% 향상된 정확도를 기록하며 새로운 SOTA를 달성했습니다. 또한, 기존의 오케스트레이션 프레임워크인 AOrchestra 대비 32.8%의 성능 향상을 보였습니다. DA-GRPO를 통해 훈련된 Orchestra-o1-8B 모델은 기존 오픈 소스 옴니모달 에이전트의 성능을 기존 20.8%에서 30.0%로 크게 개선하였습니다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 옴니모달 에이전트 시스템에서 오케스트레이션이 갖는 중요성을 입증하고, 확장 가능하며 효율적인 협업 메커니즘을 성공적으로 구축하였습니다. 제안된 DA-GRPO 학습 레시피는 오픈 소스 모델이 복잡한 작업 환경에서도 인간 수준의 추론 및 위임 능력을 갖추도록 돕는 핵심적인 기법으로 평가됩니다. 본 연구는 향후 복잡하고 이질적인 데이터가 공존하는 실세계 환경에서 범용적인 에이전트 생태계를 구축하는 데 있어 매우 중요한 학계 및 산업적 기초가 될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains
현재글 : [논문리뷰] Orchestra-o1: Omnimodal Agent Orchestration
다음글 [논문리뷰] P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning