#Visual Resolution Router (ViR)

1개의 포스트

[논문리뷰] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

본 논문은 MLLM의 이미지 입력으로 인한 추론 비용 증가 문제를 해결하고, 이미지의 의미론적 복잡성 에 따라 가변적인 수의 시각 토큰을 사용하여 이미지를 효율적으로 표현하는 새로운 훈련 전략을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Dynamic Resolution #Token Compression #Semantic Awareness #Visual Consistency Learning (ViCO)#Visual Resolution Router (ViR)#Inference Optimization

2025년 10월 15일