[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
링크: 논문 PDF로 바로 열기
메타데이터
저자: Tianxiang Jiang, Linquan Wu, Sheng Xia, Songze Li, Ziang Yan, Haoyu Yang, Yu Qiao, Yi Wang
1. Key Terms & Definitions (핵심 용어 및 정의)
- Video Event Prediction (VEP): 부분적으로 관찰된 비디오 정보를 바탕으로 관찰되지 않은 미래의 사건이나 상태 변화를 추론하는 작업입니다.
- Interleaved Latent Visual Reasoning: 텍스트 토큰과 연속적인 latent visual span을 교차하여 추론을 수행함으로써, 명시적 언어화 과정에서 손실될 수 있는 동적 시각 정보를 유지하는 프레임워크입니다.
- Future-L1-50K: 미래 프레임의 시각적 힌트가 예측에 유의미한 기여를 하는 샘플들로 구성된 학습 데이터셋으로, latent state를 미래 프레임 embedding에 정렬(align)하는 용도로 사용됩니다.
- LA-DAPO (Latent-Aware Direct Advantage Policy Optimization): Latent trajectory의 결과적 정확성과 시간적 다양성을 보상(reward)으로 최적화하여, 중간 프레임 어노테이션 없이도 잠재적 추론 능력을 강화하는 RL 기법입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다. 텍스트로 비디오 정보를 변환하는 과정에서 미세한 움직임, 기하학적 구조, 객체 간 상호작용 등 중요한 시각적 단서들이 누락되어 잘못된 할루시네이션(hallucination)을 유발합니다 [Figure 1]. 따라서 저자들은 명시적인 비디오 생성의 높은 계산 비용을 피하면서도, 연속적인 잠재 공간에서 미래의 동적 시각 정보를 유지할 수 있는 효율적인 추론 방식의 필요성을 제기합니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 오토레그레시브(autoregressive) 디코딩 과정에서 텍스트 토큰과 latent visual span을 교차 배치하는 Future-L1 프레임워크를 제안합니다 [Figure 2]. 학습은 크게 두 단계로 진행되는데, 우선 Future-L1-50K 데이터를 활용한 SFT를 통해 모델이 latent span을 호출할 시점을 학습하고 latent state를 미래 프레임 embedding과 정렬합니다. 이후 LA-DAPO를 도입하여 생성된 latent trajectory에 대해 Outcome-Contrastive 및 Temporal-Diversity 보상을 적용함으로써 추론의 정확성과 다양성을 강화합니다 [Figure 3].
실험 결과, 제안 모델은 FutureBench에서 Qwen3-VL-8B를 베이스라인으로 하였을 때 61.0에서 85.4로 성능을 대폭 향상시켰으며, 기존 SOTA 모델인 Video-CoE 대비 10.4 포인트의 우위를 보였습니다. 특히 3-Hop 및 Interp.와 같이 고난도 추론이 요구되는 구간에서 각각 15~29% 포인트 이상의 성능 개선을 달성하며, latent channel이 긴 미래 사건을 추론하는 데 탁월한 일반화 능력을 갖추었음을 입증하였습니다. TwiFF-Bench에서도 평균 점수를 2.44에서 3.04로 개선하며 범용성을 확인했습니다.
4. Conclusion & Impact (결론 및 시사점)
본 연구는 미래 사건 예측을 위해 비디오 정보를 텍스트로 치환하기보다 연속적인 latent 공간에서 미래를 '상상'하고 추론하는 Future-L1의 효과를 성공적으로 증명하였습니다. 제안된 LA-DAPO 기법은 명시적인 미래 프레임 어노테이션 없이도 효과적인 강화 학습이 가능함을 보였습니다. 이는 향후 MLLM이 복잡한 비디오 시공간 이해를 필요로 하는 agentic 인텔리전스 구현에 중요한 기술적 이정표가 될 것으로 평가됩니다.
Part 2: 중요 Figure 정보

Figure 1 — 인터리브드 잠재 추론의 동기

Figure 2 — Future-L1 프레임워크 개요

Figure 3 — Future-L1-50K 학습 포맷
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding
- [논문리뷰] Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching
- [논문리뷰] TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL
- [논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning
- [논문리뷰] IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools
Review 의 다른글
- 이전글 [논문리뷰] ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment
- 현재글 : [논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction
- 다음글 [논문리뷰] Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing
댓글