[논문리뷰] Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly본 논문은 현대의 LVLM이 일상적인 비디오 이해와 조작 과제를 해결하기 위한 세밀한 시공간적 추론 능력이 부족하다는 문제에서 시작한다.#Review#Large Vision-Language Models#Video Understanding#Spatio-Temporal Reasoning#Furniture Assembly#Object Tracking#Contact Reasoning2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Video Understanding#Grounding#Open Weights#Open Data#Multimodal AI#Object Tracking#Dense Captioning2026년 1월 15일댓글 수 로딩 중
[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.#Review#Video Object Segmentation#Dataset#Complex Scenes#Benchmark#Object Tracking#Computer Vision#Dataset Challenges2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.#Review#Referring Video Object Segmentation#Foundation Models#Prompt Engineering#Object Tracking#SAM#Video Analysis#Prompt Preference Learning2025년 10월 13일댓글 수 로딩 중