#Visual Token Pruning

2개의 포스트

[논문리뷰] SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Vision-language models (VLMs)를 3D Question Answering (3D QA)에 적용할 때, 다중 뷰 이미지에서 발생하는 극심한 시각적 중복(token redundancy) 문제가 주요 장애물로 작용합니다.

#Review #3D Question Answering #Vision-Language Models #Visual Token Pruning #Semantic-Awareness #Geometry-Guided

2026년 3월 31일

[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

본 연구는 대규모 시각-언어 모델(LVLM)에서 고해상도 입력 처리 시 발생하는 시각 토큰 폭증으로 인한 비효율성을 해결하고자 합니다.

#Review #Large Vision-Language Models (LVLMs)#Visual Token Pruning #Dynamic Compression #GlimpsePrune #Computational Efficiency #VQA #Reinforcement Learning

2025년 8월 5일