[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

2026년 4월 8일수정: 2026년 4월 8일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Tommie Kerssies, Gabriele Berton, Ju He, Qihang Yu, Wufei Ma, Daan de Geus, Gijs Dubbelman, Liang-Chieh Chen, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

DeltaTok : 연속된 프레임 사이의 VFM(Vision Foundation Model) 특징 차이만을 단일 연속형 'delta token'으로 인코딩하는 토크나이저입니다.
DeltaWorld : DeltaTok을 사용하여 비디오를 고차원 공간에서 1차원 시퀀스로 압축하고, 이를 바탕으로 효율적인 멀티-가설 예측을 수행하는 생성적 월드 모델입니다.
Best-of-Many (BoM) Training : 다양한 노이즈 쿼리를 입력으로 사용하여 여러 미래 시나리오를 동시에 생성하고, 그중 정답(Ground Truth)과 가장 가까운 결과만을 학습시키는 기법입니다.
VFM (Vision Foundation Model) : 본 논문에서 월드 모델의 특징 공간(feature space)을 정의하기 위해 사용하는 사전 학습된 시각 모델(예: DINOv3 )입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 생성적 월드 모델의 계산 비효율성과 결정론적 모델의 한계를 동시에 해결하는 것을 목표로 합니다. 기존의 생성적 모델은 픽셀 단위의 복잡한 세부사항을 생성하느라 계산 자원을 과도하게 소비하며, 여러 미래 시나리오를 생성하기 위해 다수의 연속적인 forward pass를 요구합니다. 반면, 결정론적 모델은 불확실한 미래를 평균값으로 귀결시켜 다양한 plausible future를 표현하지 못합니다. 저자들은 비디오의 시공간적 중복성을 활용하여 비디오를 매우 압축된 표현으로 변환함으로써, 단일 forward pass로도 다양한 미래를 효율적으로 생성할 수 있는 모델이 필요함을 강조합니다 [Figure 1].

Figure 1: DeltaWorld의 모델 개요

Figure 1 — DeltaWorld의 모델 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok 과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld 를 제안합니다. DeltaTok 은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 [Figure 3]. 이 구조를 Best-of-Many (BoM) 학습 목표와 결합하여, 모델은 단 한 번의 forward pass만으로도 다양한 미래 가설을 병렬로 생성합니다 [Figure 4].

Figure 3: DeltaTok의 동작 방식

Figure 3 — DeltaTok의 동작 방식

Figure 4: DeltaWorld 학습 및 추론 구조

Figure 4 — DeltaWorld 학습 및 추론 구조

실험 결과, DeltaWorld 는 기존 생성적 월드 모델 대비 파라미터 수를 35배 이상 줄이고, FLOPs(연산량)를 2,000배 이상 대폭 절감했습니다 [Figure 2]. 정량적 지표인 mIoU 및 RMSE 측면에서, DeltaWorld 는 복잡한 generative baselines보다 우수한 성능을 보였으며, 특히 샘플링된 미래의 현실성(plausibility)이 기존 결정론적 모델보다 월등히 높음을 확인했습니다 [Table 3].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 프레임의 차이만을 인코딩하는 DeltaTok 이 비디오를 효과적으로 압축하고, DeltaWorld 가 이를 통해 매우 효율적인 생성적 월드 모델링을 가능하게 함을 입증했습니다. 이 연구는 고차원 비디오 데이터를 1차원적인 변화 시퀀스로 다룸으로써, 자율 주행 및 로봇공학처럼 효율적인 미래 예측이 필수적인 분야에서 계산 복잡도를 혁신적으로 낮출 수 있는 새로운 패러다임을 제시합니다. 향후 모델 크기 확장 및 더 긴 문맥(context length)을 다루는 연구의 토대를 마련했다는 점에서 학계와 산업계에 큰 시사점을 줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training
현재글 : [논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
다음글 [논문리뷰] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning