[논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression

2026년 5월 21일수정: 2026년 5월 21일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Jung Yi, Minjae Kim, Paul Hyunbin Cho, Wooseok Jang, Sangdoo Yun, Seungryong Kim

1. Key Terms & Definitions (핵심 용어 및 정의)

KV Cache: Autoregressive 모델에서 이전 생성 단계의 Key-Value 상태를 저장하여 중복 연산을 방지하는 버퍼입니다.
World Retrieval: 모델이 특정 장면을 다시 방문할 때, 저장된 과거의 KV-cache chunk 중 시각적으로 관련성이 높은 데이터를 선택적으로 검색하여 컨텍스트에 삽입하는 메커니즘입니다.
World Compression: KV-cache 내의 중복 토큰을 Key-Key similarity를 기준으로 가지치기하여 메모리 효율을 극대화하는 기법입니다.
Sliding-window Inference: 제한된 길이의 컨텍스트만 유지하여 실시간성을 보장하는 추론 방식이나, 장기 기억력(Long-term consistency)이 결여되는 단점이 있습니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Autoregressive 비디오 모델에서 실시간성을 유지하면서도 공간적·시간적 일관성을 갖춘 장기 기억(Long-term memory)을 구현하는 문제를 해결하고자 합니다. 기존 연구들은 Full KV-cache를 사용하여 일관성을 확보하려 하지만, 롤아웃이 길어짐에 따라 메모리 점유율과 연산 비용이 선형적으로 증가하여 실시간성을 저해하는 OOM(Out-Of-Memory) 병목 현상을 겪습니다 [Figure 2]. 반면, 대안으로 사용되는 Sliding-window 방식은 실시간성은 확보하지만 과거 정보를 버림으로써 장기적인 장면 재방문 시 심각한 시각적 드리프트나 환각 현상을 발생시킵니다. 따라서 저자들은 별도의 학습 없이 기존 모델의 KV-cache를 효율적으로 관리하여 두 문제를 동시에 해결하는 WorldKV를 제안합니다.

Figure 2: Full KV 대비 WorldKV의 메모리 및 처리량 효율성 비교

Figure 2 — Full KV 대비 WorldKV의 메모리 및 처리량 효율성 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 World Retrieval과 World Compression을 통해 효율적인 World Memory 시스템을 구현합니다 [Figure 4]. World Retrieval은 EVicted 된 KV-cache chunk를 카메라/액션 기반의 유사도에 따라 저장하고 필요 시 재삽입하며, World Compression은 앵커 프레임 대비 유사도가 높은 토큰을 제거하여 chunk 당 저장 공간을 약 50%까지 절감합니다. 실험 결과, WorldKV는 Matrix-Game-2.0 및 LingBot-World-Fast 모델에서 Full KV-cache 대비 약 2배의 Throughput(FPS)을 달성하면서도 장기 기억 일관성 측면에서 동등하거나 더 우수한 성능을 보였습니다 [Table 1]. 특히, 정량적 지표인 LPIPS 및 FID에서 기존의 Memory-trained baselines보다 우수한 성능을 입증하며, 어떠한 파인튜닝 없이도 안정적인 재방문 일관성을 확보하였습니다 [Table 2].

Figure 4: WorldKV 전체 아키텍처 및 메커니즘 개요

Figure 4 — WorldKV 전체 아키텍처 및 메커니즘 개요

4. Conclusion & Impact (결론 및 시사점)

본 논문은 모델의 학습 과정 수정 없이 KV-cache의 효율적인 검색과 압축만으로 장기 기억력을 구현할 수 있음을 입증하였습니다. 이 연구는 대규모 비디오 생성 모델에서 실시간성과 장기적 일관성을 동시에 확보할 수 있는 실용적인 프레임워크를 제시했다는 점에서 큰 의의가 있습니다. WorldKV는 향후 상호작용형 가상 환경, 로보틱스,embodied AI 분야에서 고해상도 장기 기억 모델을 배포하는 데 중추적인 기술적 토대가 될 것으로 기대됩니다.

Figure 5: 방법론별 정성적 비교 결과

Figure 5 — 방법론별 정성적 비교 결과

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Unsupervised Process Reward Models
현재글 : [논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression
다음글 [논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows