[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

2026년 4월 2일수정: 2026년 4월 2일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yongkang Li, Lijun Zhou, Sixu Yan, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

VLA (Vision-Language-Action) Models : 시각적 이해, 언어적 추론, 그리고 물리적 행동 계획을 통합하여 자율주행 등 복합적인 과제를 수행하는 모델입니다.
MoT (Mixture-of-Transformers) : 다양한 모달리티나 과제를 각기 다른 전문가(expert) 경로로 분리하여 처리하고, 제어된 메커니즘을 통해 상호작용하도록 설계된 아키텍처입니다.
Perception–Reasoning Conflict : 단일 가중치를 공유하는 모델에서 공간적 인지(perception)와 의미론적 추론(reasoning)을 동시에 최적화할 때 발생하는 표현 간의 간섭 현상입니다.
Masked Joint Attention : MoT의 전문가들 간에 정보를 교환할 때, 특정 방향으로만 정보를 흐르게 하거나 제한하여 정보의 독립성을 유지하면서 협업을 가능하게 하는 기법입니다.
Sparse Perception : 밀집된 3D 표현 대신, 희소한 쿼리를 사용하여 공간 정보를 추출함으로써 효율적인 인지와 주행 계획을 수행하는 패러다임입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다. 이를 보완하기 위해 3D 표현을 주입하려는 시도가 있었으나, 이는 공유 파라미터 내에서의 표현 간섭을 일으켜 VLM 고유의 추론 능력을 훼손하는 부작용을 낳습니다 [Figure 1]. 따라서 본 연구는 이러한 표현 간섭을 구조적으로 해결하고, 공간 인지와 의미론적 추론을 동시에 달성할 수 있는 새로운 통합 프레임워크를 제안합니다.

Figure 1: VLA 패러다임 비교

Figure 1 — VLA 패러다임 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 UniDriveVLA 라는 통합 모델을 제안하며, Mixture-of-Transformers 구조를 통해 주행 이해, 장면 인지, 행동 계획을 전담하는 세 개의 독립적인 전문가를 설계했습니다 [Figure 3]. 이들은 Masked Joint Attention 을 통해 제어된 방식으로 상호작용하며, 각 전문가의 최적화가 서로의 성능을 저해하지 않도록 구조적으로 분리되어 있습니다 [Figure 4]. 또한, Sparse Perception 패러다임을 도입하여 효율적으로 공간적 특징을 추출하고, 이를 3단계 점진적 학습 전략(Three-stage progressive training strategy) 으로 최적화하여 의미론적 추론 능력을 유지하면서 인지 및 계획 성능을 극대화했습니다. 정량적 실험 결과, UniDriveVLA 는 Bench2Drive 벤치마크에서 78.37 의 Driving Score 와 198.86 의 효율성 지표를 기록하며 최첨단(SOTA) 성능을 달성했습니다 [Table 1]. 또한, nuScenes 데이터셋에서의 주행 계획 평가(L2 displacement error)와 일반적인 멀티모달 이해 과제에서도 공유 가중치 모델 대비 일관된 우위를 확인했습니다 [Table 7]. 이러한 결과는 전문가 분리(decoupling) 설계가 VLA 모델의 성능 제약을 해결하는 데 매우 효과적임을 입증합니다.

Figure 3: UniDriveVLA 아키텍처

Figure 3 — UniDriveVLA 아키텍처

Figure 4: Masked Joint Attention

Figure 4 — Masked Joint Attention

4. Conclusion & Impact (결론 및 시사점)

본 연구는 자율주행 VLA 시스템에서 인지와 추론 간의 갈등을 구조적으로 해결한 UniDriveVLA 를 제안함으로써, 단일 모델로 통합된 고성능 자율주행 프레임워크의 가능성을 제시합니다. MoT 구조와 Sparse Perception 은 자율주행 분야뿐만 아니라 공간 인지와 추론이 동시에 요구되는 일반적인 로봇 조작 제어 문제에도 중요한 기술적 영감을 제공합니다. 이 연구는 복잡한 도심 주행 환경에서 모델의 범용성과 안전성을 확보하기 위한 새로운 학습 및 구조적 설계 방향성을 확립했다는 점에 의의가 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
현재글 : [논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
다음글 [논문리뷰] UniRecGen: Unifying Multi-View 3D Reconstruction and Generation