본문으로 건너뛰기

[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

링크: 논문 PDF로 바로 열기

저자: Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang

핵심 연구 목표

본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다. 기존 압축 방법의 한계를 극복하고, 모달리티 간의 비대칭적 특성을 활용하여 효율적이면서도 성능 저하 없는 토큰 압축 프레임워크를 제안하고자 합니다.

핵심 방법론

제안하는 OmniSIFT모달리티 비대칭적 토큰 압축 프레임워크 로, 두 단계로 구성됩니다. 첫 번째 단계에서 Spatio-Temporal Video Pruning (STVP) 모듈 은 시공간적 비디오 중복성(프레임 내 구조 및 프레임 간 오버랩)을 제거하여 핵심 시각 앵커를 얻습니다. 두 번째 단계에서는 Vision-Guided Audio Selector (VGAS) 모듈 이 이러한 시각 앵커를 활용하여 가장 정보 가치가 높은 오디오 토큰을 선택하며, 전체 프레임워크는 미분 가능한 Straight-Through Estimator (STE) 를 통해 End-to-End로 최적화됩니다.

주요 결과

Qwen2.5-Omni-7B 에서 OmniSIFT는 단 4.85M 의 추가 파라미터만으로도 훈련 없는 베이스라인보다 낮은 지연 시간을 달성했습니다. 전체 토큰 컨텍스트의 25% 만 유지하고도 모든 압축 베이스라인을 지속적으로 능가했으며, 일부 태스크에서는 풀-토큰(full-token) 모델 의 성능을 (WorldSense 벤치마크에서 49.7% 대비 50.0%) 뛰어넘었습니다. 또한, 7B 모델에서 전체 추론 시간을 40% 이상 , 피크 메모리 사용량을 4.6 GB 이상 절감하며, 25% 보존율에서 50%의 FLOPs 감소 를 보였습니다.

AI 실무자를 위한 시사점

OmniSIFT는 자원 제약적인 환경 에서 Omni-LLM의 배포 가능성 을 크게 향상시키며, 실시간 오디오-비주얼 이해 애플리케이션에 적합한 솔루션을 제공합니다. 모달리티 간의 비대칭적 정보 의존성 을 활용하는 새로운 압축 패러다임을 제시하여, AI 개발자들이 계산 효율성을 극대화하면서도 성능 저하를 최소화 할 수 있는 방향을 제시합니다. 이는 오디오-비주얼 QA 및 비디오 캡셔닝과 같은 복잡한 멀티모달 태스크에서 실제 적용될 수 있는 잠재력이 큽니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글