[논문리뷰] Kairos: A Native World Model Stack for Physical AI

2026년 6월 17일수정: 2026년 6월 17일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Kairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang

1. Key Terms & Definitions (핵심 용어 및 정의)

Kairos: Physical AI를 위한 고유의(Native) World Model 스택으로, 학습, 유지, 실행 전 과정을 포괄하는 인프라를 지칭함.
CEDC (Cross-Embodiment Data Curriculum): 다양한 데이터 도메인(오픈 월드 비디오, 인간 행동, 로봇 상호작용)을 계층적 커리큘럼으로 구조화하여 모델이 물리적 세계에 대한 이해를 단계적으로 습득하도록 돕는 방법론.
GLA (Gated Linear Attention): 시퀀스 길이에 따라 선형적(Linear) 복잡도를 유지하면서 장기적인 의존성을 모델링하는 어텐션 메커니즘으로, 긴 시간적 지평(Long-horizon)에서의 상태 유지 능력을 제공함.
LinearDiT: 기존 Diffusion Transformer의 quadratic complexity를 극복하기 위해 Hybrid Linear Attention을 도입한 모델 백본.
WAM (World-Action Model): 환경 이해와 로봇 제어(Action)를 단일 generative 프레임워크 내에서 통합하여, 관측과 행동 간의 물리적 정합성을 높이는 모델 구조.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현재 World Model이 단순한 비디오 생성기를 넘어 Physical AI를 위한 근본적인 인프라로 진화해야 한다는 필요성에서 출발한다 [Figure 1]. 기존 연구들은 파편화된 데이터 소스(비디오, 인간 행동, 로봇 데이터)를 통합적으로 학습하지 못하거나, 장기적 시계열(Long-horizon) 생성 시 상태 유지에 실패하는 한계를 가진다. 또한, 강력한 생성 성능을 보이더라도 실시간 제어 루프를 지탱할 수 없는 높은 연산 복잡도와 메모리 요구량은 실질적인 배포를 가로막는 주요 장벽이다. 본 연구는 이러한 파편화, 상태 일관성 결여, 그리고 배포 최적화 문제를 동시에 해결하는 통합적인 Kairos 프레임워크를 제안한다 [Figure 2].

Figure 1: Kairos 연구 배경 및 목표

Figure 1 — Kairos 연구 배경 및 목표

Figure 2: Kairos 전체 프레임워크

Figure 2 — Kairos 전체 프레임워크

3. Method & Key Results (제안 방법론 및 핵심 결과)

Kairos는 학습, 유지, 실행이라는 세 가지 핵심 차원에서 최적화된 아키텍처를 제안한다. 먼저, CEDC를 통해 물리적 법칙부터 로봇 제어까지 계층적으로 학습하는 Pre-training paradigm을 구축하였다. 모델링 측면에서는 SWA(Sliding Window Attention), DSWA(Dilated SWA), 그리고 GLA로 구성된 하이브리드 어텐션 메커니즘을 적용하여 계산 복잡도를 선형으로 낮추면서도 긴 시퀀스에서의 상태 유지력을 수학적으로 보장한다 [Figure 4], [Figure 5]. 구체적으로, Gated Linear Attention 모듈은 불필요한 키 정보를 제거하는 Delta Update Rule을 통해 효율적인 글로벌 기억을 수행한다 [Figure 6]. 실험 결과, Kairos는 LIBERO-plus 및 RoboTwin 2.0과 같은 벤치마크에서 기존 모델 대비 압도적인 성능 우위를 점하였다. 또한, 추론 성능 측면에서 기존 DiT 모델 대비 선형적인 스케일링을 통해 실시간 로봇 제어에 필수적인 짧은 Latency를 달성하였다 [Figure 3].

Figure 6: Gated Linear Attention 구조

Figure 6 — Gated Linear Attention 구조

4. Conclusion & Impact (결론 및 시사점)

본 논문은 Kairos를 통해 World Model이 더 이상 단순한 생성 기술이 아닌, Physical AI의 자가 진화(Self-evolution)를 위한 실질적인 인프라로 기능할 수 있음을 입증하였다. 하드웨어 환경을 고려한 설계(Deployment-Aware Co-Design)와 통합적인 모델 아키텍처는 학계의 연구적 시도와 실제 산업계의 배포 요구 간의 간극을 좁히는 데 중요한 기여를 한다. 향후 이 연구는 로봇 공학 및 자율 시스템 분야에서 범용적이고 연속적인 학습을 수행하는 지능형 에이전트의 기반이 될 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products
현재글 : [논문리뷰] Kairos: A Native World Model Stack for Physical AI
다음글 [논문리뷰] LLM-Enabled NWDAF: A Step Toward AI-Native 6G Network Intelligence