#Region-level Understanding

1개의 포스트

[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

기존 MLLM이 주로 전체적인(holistic) 장면 이해에 초점을 맞춰 이미지 및 비디오 내 특정, 지역화된 영역에 대한 세분화된 객체 중심 추론(visual referring) 능력이 부족한 문제를 해결하는 것입니다.

#Review #MLLM #Region-level Understanding #Object-centric Reasoning #Spatio-temporal Referring #Video Understanding #Scale-Adaptive Tokenizer #Efficiency #Instruction Tuning

2025년 10월 28일