#Object Tracking

4개의 포스트

[논문리뷰] Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

본 논문은 현대의 LVLM이 일상적인 비디오 이해와 조작 과제를 해결하기 위한 세밀한 시공간적 추론 능력이 부족하다는 문제에서 시작한다.

#Review #Large Vision-Language Models #Video Understanding #Spatio-Temporal Reasoning #Furniture Assembly #Object Tracking #Contact Reasoning

2026년 5월 31일

[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Video Understanding #Grounding #Open Weights #Open Data #Multimodal AI #Object Tracking #Dense Captioning

2026년 1월 15일

[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.

#Review #Video Object Segmentation #Dataset #Complex Scenes #Benchmark #Object Tracking #Computer Vision #Dataset Challenges

2025년 8월 8일

[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.

#Review #Referring Video Object Segmentation #Foundation Models #Prompt Engineering #Object Tracking #SAM #Video Analysis #Prompt Preference Learning

2025년 10월 13일