#Video Event Prediction

1개의 포스트

[논문리뷰] Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

본 논문은 기존의 Video MLLM들이 미래 사건 예측(VEP) 시 텍스트 기반의 Chain-of-Thought(CoT)에 의존함에 따라 발생하는 시각적 정보 손실 문제를 해결하고자 합니다.

#Review #Video Event Prediction #Multimodal Large Language Models #Latent Visual Reasoning #Interleaved Reasoning #Reinforcement Learning #Future-L1 #LA-DAPO

2026년 6월 4일