#multi-task learning

1개의 포스트

[논문리뷰] OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

현대 visual agent는 로봇, AR 장치 등 실시간 스트리밍 환경에서 작동하기 위해 일반적이고, 인과적이며, 물리적으로 구조화된 표현을 요구합니다.

#Review #streaming visual backbone #causal spatiotemporal attention #3D-ROPE #multi-task learning #real-time inference #embodied agents #vision-language alignment

2026년 3월 12일