[논문리뷰] X2SAM: Any Segmentation in Images and Videos본 논문은 MLLM의 강력한 추론 능력과 foundation segmentation model의 정밀한 픽셀 단위 인식 능력을 통합하여 정적 이미지뿐만 아니라 동적 비디오까지 포괄하는 통합된 세분화 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Segmentation#Video-Understanding#Mask-Memory#Visual-Prompting#Spatio-Temporal-Consistency2026년 5월 5일댓글 수 로딩 중