본문으로 건너뛰기

[논문리뷰] Qwen3.5-Omni Technical Report

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Qwen Team, et al.


1. Key Terms & Definitions (핵심 용어 및 정의)

  • Thinker-Talker Architecture: 텍스트 생성을 담당하는 Thinker와 멀티모달 입력 및 텍스트 출력을 바탕으로 고품질 음성을 생성하는 Talker로 분리된 이중 구조 모델 프레임워크입니다.
  • ARIA (Adaptive Rate Interleave Alignment): 텍스트와 음성 토큰화 효율의 불일치를 해결하기 위해, 텍스트와 음성 단위 간의 동적 정렬을 강제하여 스트리밍 음성 합성의 안정성과 자연스러움을 개선하는 기술입니다.
  • Hybrid MoE (Mixture-of-Experts): 효율적인 모델 확장성과 성능 균형을 위해 ThinkerTalker 모두에 적용된 아키텍처로, 특히 장문 맥락의 오디오-비디오 처리를 가속화합니다.
  • Audio-Visual Vibe Coding: 오디오-비디오 명령어를 직접 입력받아 실행 가능한 코드를 생성하는 Qwen3.5-Omni의 새로운 창발적(emergent) 역량입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 멀티모달 모델이 지닌 수동적 인식-반응 패러다임의 한계를 극복하고, 실제 환경에서 요구되는 에이전트적 행위 및 실시간 상호작용 능력을 갖춘 통합 모델을 구현하고자 합니다. 기존 연구(Baseline)들은 대부분 모달리티 간의 독립적인 처리로 인해 실제 상호작용 시 발생하는 지연 시간 문제와 복합적 추론의 어려움을 겪어왔습니다. 특히 스트리밍 음성 합성 시 토크나이저 효율 불일치로 인한 불안정성이 발목을 잡아왔으며, 이는 자연스러운 대화형 상호작용을 방해하는 요소였습니다. 이러한 한계를 극복하기 위해 본 연구는 네이티브 Omnimodal 아키텍처와 새로운 정렬 기술의 도입을 제안합니다 [Figure 1].

Figure 1: Qwen3.5-Omni 전체 개요

Figure 1 — Qwen3.5-Omni 전체 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Thinker-Talker 구조를 기반으로 Hybrid MoE 아키텍처를 도입하여 이해와 생성을 효율화하고, ARIA 기술을 통해 스트리밍 음성 합성의 안정성을 대폭 개선했습니다 [Figure 2]. 특히 AuT (Audio Transformer) 인코더는 4,000만 시간 이상의 지도 데이터를 활용하여 6.25Hz의 견고한 오디오 표현을 학습하며, TM-RoPE와 시간 코드 명시적 삽입을 통해 긴 문맥에서의 시공간적 이해력을 높였습니다 [Figure 3]. 실험 결과, Qwen3.5-Omni-Plus는 215개의 오디오 및 오디오-비주얼 이해, 추론 및 상호작용 서브태스크에서 Gemini-3.1 Pro를 상회하거나 대등한 SOTA 성능을 기록했습니다. 음성 생성 성능 측면에서도 제로샷 환경에서 SEED-TTS 대비 높은 콘텐츠 일관성을 보였으며, 특히 Qwen3.5-Omni-PlusSEED-TTS 테스트셋의 test-en 환경에서 1.26의 WER을 기록하여 최상의 결과(Best performance)를 달성하였습니다 [Table 8].

Figure 2: Thinker-Talker 아키텍처

Figure 2 — Thinker-Talker 아키텍처

Figure 3: AuT 오디오 인코더 구조

Figure 3 — AuT 오디오 인코더 구조

4. Conclusion & Impact (결론 및 시사점)

본 연구는 텍스트, 이미지, 오디오, 비디오를 통합적으로 이해하고 생성하며 자율적인 도구 사용이 가능한 Qwen3.5-Omni를 통해 멀티모달 에이전트의 새로운 이정표를 제시합니다. 제안된 기술들은 실제 대화 환경에서 필요한 저지연 상호작용과 복잡한 멀티모달 추론 요구사항을 만족시키며, 산업계의 범용 에이전트 모델 개발에 강력한 기반을 제공합니다. 향후 본 기술은 물리적 세계와 AI 에이전트 간의 연결을 심화하고, 인간과 유사한 자연스러운 실시간 상호작용을 구현하는 데 핵심적인 기여를 할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글