[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.#Review#MLLM#Region-level Understanding#Object-centric Reasoning#Spatio-temporal Referring#Video Understanding#Scale-Adaptive Tokenizer#Efficiency#Instruction Tuning2025년 10월 28일댓글 수 로딩 중