#Parametric Knowledge Compression

1개의 포스트

[논문리뷰] Video2LoRA: Parametric Video Internalization for Vision-Language Models

본 논문은 기존 VLM 기반 비디오 이해 모델들이 겪는 고질적인 컨텍스트 윈도우 병목 현상과 과도한 토큰 소비 문제를 해결하고자 합니다. 기존 방식은 프레임별로 수백 개의 시각 토큰을 컨텍스트에 삽입해야 하므로, 영상 길이가 길어지거나 질의가 반복될 때마다 메모리와 Latency 부담이 기하급수적으로 증가합니다 .

#Review #Video-Language Models #Low-Rank Adaptation #Hypernetwork #Video Internalization #Inference Efficiency #Parametric Knowledge Compression #Perceiver

2026년 6월 4일