[논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding본 논문은 기존의 elastic vision-token compression 방식들이 가진 근본적인 표현력 한계를 극복하고자 한다.#Review#Vision-Language Models#Token Compression#Elastic Inference#Matryoshka Representation Learning#Pool-Conditioned Query Resampling#Efficient Multimodal Learning2026년 6월 1일댓글 수 로딩 중
[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .#Review#Video-LLMs#Token Compression#Vision Encoder#Time-to-First-Token#Inference Efficiency#Training-free2026년 5월 28일댓글 수 로딩 중
[논문리뷰] LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs본 연구는 장편 비디오 이해를 위해 Video LLMs를 확장할 때 발생하는 고질적인 계산 복잡도와 효율성 병목 문제를 해결하는 데 집중합니다.#Review#Video LLMs#Vision Encoder#Token Compression#Compressed Token Distillation#Long-form Video Understanding#Spatio-temporal Modeling2026년 5월 18일댓글 수 로딩 중
[SGLang] Efficient Vision Sampling: 이미지 토큰 압축SGLang의 Efficient Vision Sampling을 분석한다. 이미지 토큰 수를 줄여 추론 속도를 높이는 압축 전략, 정확도-효율 트레이드오프를 코드와 함께 살펴본다.#sglang#EVS#Vision Sampling#Token Compression#Efficiency2026년 4월 14일댓글 수 로딩 중
[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Omni-modal LLMs#Token Compression#Modality-Asymmetric#Video Pruning#Audio Selection#Efficiency#Large Language Models#Spatio-Temporal2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models본 논문은 대규모 시각-언어 모델(LVLM)에서 시각 토큰 압축이 모델의 강건성(robustness) 에 미치는 보안적 영향을 최초로 체계적으로 탐구합니다.#Review#LVLM Security#Token Compression#Adversarial Attack#Robustness Degradation#Compression-Aware Attack#Efficiency-Security Trade-off#Black-box Attack2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.#Review#Streaming Video LLMs#Token Compression#ViT Encoding#LLM Prefilling#Causal Compression#Caching#Pruning#Low-latency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다.#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI2025년 11월 20일댓글 수 로딩 중
[논문리뷰] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models옴니모달 대규모 언어 모델(OmniLLMs)이 직면한 오디오-비디오 토큰의 과도한 수 와 주의 메커니즘의 2차 복잡성 으로 인한 계산 및 메모리 병목 현상 을 해결하는 것을 목표로 합니다. 특히, 기존의 단일 모달 압축 방법으로는 멀티모달 토큰의 공동 압축 요구사항을 충족하기 어렵다는 문제를 해결하고자 합니다.#Review#Omnimodal LLMs#Token Compression#Audio-Video Understanding#Dynamic Pruning#Inference Acceleration#Spatio-Temporal Compression#Large Language Models2025년 11월 18일댓글 수 로딩 중
[논문리뷰] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution본 논문은 MLLM의 이미지 입력으로 인한 추론 비용 증가 문제를 해결하고, 이미지의 의미론적 복잡성 에 따라 가변적인 수의 시각 토큰을 사용하여 이미지를 효율적으로 표현하는 새로운 훈련 전략을 제안합니다.#Review#Multimodal Large Language Models (MLLMs)#Dynamic Resolution#Token Compression#Semantic Awareness#Visual Consistency Learning (ViCO)#Visual Resolution Router (ViR)#Inference Optimization2025년 10월 15일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition논문은 대규모 언어 모델(LLMs) 기반 오디오-비주얼 음성 인식(AVSR) 시스템이 겪는 높은 계산 수요와 고정된 토큰 압축률의 한계를 해결하고자 합니다.#Review#Audio-Visual Speech Recognition#Mixture of Experts#Matryoshka Representation Learning#Large Language Models#Elastic Inference#Token Compression#Multimodal AI2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Efficient Multi-modal Large Language Models via Progressive Consistency Distillation본 논문은 멀티모달 대규모 언어 모델(MLLMs)에서 시각 토큰이 소모하는 막대한 계산 자원으로 인한 효율성 저하 문제를 해결하고자 합니다. 특히, 시각 토큰 압축 과정에서 발생하는 학습 난이도 증가 와 특징 공간 교란 문제를 해결하여, 효율성을 높이면서도 성능 저하를 최소화하는 것을 목표로 합니다.#Review#Multi-modal LLMs#Token Compression#Efficiency#Knowledge Distillation#Progressive Learning#Consistency Distillation#MLLM Training2025년 10월 6일댓글 수 로딩 중