[논문리뷰] OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams현대 visual agent는 로봇, AR 장치 등 실시간 스트리밍 환경에서 작동하기 위해 일반적이고, 인과적이며, 물리적으로 구조화된 표현을 요구합니다.#Review#streaming visual backbone#causal spatiotemporal attention#3D-ROPE#multi-task learning#real-time inference#embodied agents#vision-language alignment2026년 3월 12일댓글 수 로딩 중