[논문리뷰] Hallucination in World Models is Predictable and Preventable

2026년 6월 25일수정: 2026년 6월 25일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Nicklas Hansen, Xiaolong Wang

1. Key Terms & Definitions (핵심 용어 및 정의)

World Models: 환경의 동역학(Dynamics)을 학습하여 미래의 상태와 보상을 예측하고, 이를 통해 제어(Control) 및 계획(Planning)을 수행하는 generative 모델.
Hallucination: 모델이 생성한 Rollout이 시각적으로는 자연스럽지만(visually fluent), 실제 환경의 물리적 동역학이나 행동 결과와는 괴리가 발생하는 현상.
MMBench2: 저자들이 구축한 427시간 분량의 대규모 multitask 데이터셋으로, 210개 이상의 다양한 연속 제어(continuous control) 과업과 live simulator를 포함함.
Coverage-aware Sampling: 데이터셋 내에서 저평가된 state-action 공간을 의도적으로 더 많이 샘플링하여, 모델의 데이터 불균형(coverage gap)을 해소하는 학습 기법.
Hallucination Predictors: 토크나이저 복원 오차(tokenizer round-trip residual), 흐름 불안정성(flow instability), 앙상블 분산 등을 활용하여 추가 학습 없이 모델의 오류를 실시간으로 탐지하는 지표.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 generative world model들이 매우 사실적인 미래를 생성함에도 불구하고, 실제 동역학으로부터 이탈하는 Hallucination 문제를 해결하고자 한다. 저자들은 이러한 Hallucination이 단순히 모델 아키텍처의 문제가 아니라, 특정 state-action 공간에서의 데이터 부족(low-coverage)에 기인한 근본적인 데이터 커버리지 문제임을 규명한다. 기존 연구들은 Hallucination을 모델의 내부적인 비결정성으로 치부하거나 모델 크기를 키우는 방식에 의존했지만, 본 연구는 이를 예측하고 방지할 수 있는 시스템적인 접근 방식을 제안한다 [Figure 1].

Figure 1: 세 가지 유형의 Hallucination

Figure 1 — 세 가지 유형의 Hallucination

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 Hallucination을 Perceptual, Action-marginalized, Scene-diverging의 세 가지 유형으로 분류하고, 이를 감지하기 위한 tokenizer round-trip residual, flow instability, inter-seed denoising variance 지표를 개발하였다. 본 논문은 이 지표들이 모델의 Rollout 오류와 높은 상관관계($\rho \approx 0.80$)를 가짐을 입증하였다 [Figure 5]. 제안된 Coverage-aware sampling을 통해 모델을 재학습한 결과, 베이스라인 대비 Rollout ΔPSNR을 0.88 dB 향상시키고 주요 Hallucination predictor 수치를 유의미하게 감소시켰다 [Table 1]. 또한, 제안된 지표를 curiosity reward로 활용하여 실시간 환경에서 targeted data collection을 수행함으로써, 단 50개의 trajectory만으로 unseen task에 대해 우수한 전이 성능을 달성하였다 [Table 2]. 이는 제안 방법론이 모델의 신뢰성을 높이고 데이터 효율적인 환경 적응을 가능하게 함을 보여준다.

Figure 5: Hallucination 예측 지표와 Rollout 오류

Figure 5 — Hallucination 예측 지표와 Rollout 오류

4. Conclusion & Impact (결론 및 시사점)

본 논문은 world model에서의 Hallucination이 데이터 커버리지의 문제임을 밝히고, 동일한 데이터 지표를 통해 이를 예측 및 예방할 수 있는 체계적인 프레임워크를 제공하였다. 이 연구는 강화학습 및 로보틱스 분야에서 모델 기반 정책 학습의 신뢰성을 크게 향상시킬 수 있는 실용적인 해결책을 제시한다. 결과적으로 본 연구는 방대한 계산 자원을 투입하여 모델의 크기를 키우는 방식 대신, 데이터 중심의 효율적인 학습 전략이 AI 모델의 일반화 및 안정성 확보에 얼마나 중요한지를 입증하였다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents
현재글 : [논문리뷰] Hallucination in World Models is Predictable and Preventable
다음글 [논문리뷰] How Post-Training Shapes Biological Reasoning Models