[논문리뷰] ViQ: Text-Aligned Visual Quantized Representations at Any Resolution

2026년 6월 25일수정: 2026년 6월 25일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Xumin Yu, Zuyan Liu, Zhenyu Yang, Yuhao Dong, Shengsheng Qian, Jiwen Lu, Han Hu, Yongming Rao

1. Key Terms & Definitions (핵심 용어 및 정의)

ViQ (Visual Quantized Representations): 높은 시각적 충실도와 의미론적 표현력을 동시에 유지하면서 이미지를 이산화(discretize)하는 프레임워크입니다.
Proximal Representation Learning: 양자화 과정에서의 정보 손실을 최소화하기 위해 잠재 공간을 단계적으로 압축하는 전략입니다.
FSQ (Finite Scalar Quantization): 별도의 추가적인 코드북 학습 없이도 안정적인 학습 성능을 제공하는 이산화 기법입니다.
2D RoPE (Rotary Position Embedding): 고정된 입력 해상도 문제를 해결하고 임의의 해상도(any-resolution)에서도 공간적 관계를 보존하기 위해 적용된 위치 인코딩 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 MLLM에서 시각적 인코더가 사용하는 연속적 표현(continuous representation)과 언어 모델의 이산적 토큰(discrete token) 사이의 표현 불일치 문제를 해결하고자 합니다. 기존의 재구성 중심 오토인코더는 의미론적 정보를 희생하고, 반대로 의미론적으로 강력한 인코더는 양자화 시 심각한 세부 정보 손실을 겪습니다. 이러한 한계로 인해 양자화된 시각적 표현은 실무에서 연속적 인코더만큼의 고충실도와 강건성을 확보하지 못하고 있습니다 [Figure 1]. 저자들은 의미론적 정렬과 세부적 표현을 모두 보존하면서도 임의의 해상도를 지원하는 효율적인 통합 이산 표현 프레임워크의 필요성을 제시합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 ViQ 프레임워크를 통해 시각적 양자화 학습을 두 단계로 체계화합니다. Stage 1에서는 대규모 언어-이미지 쌍을 활용한 text-aligned pre-training을 통해 시각 인코더의 의미론적 정렬을 강화하고, any-resolution 적응을 위해 가변 해상도 입력을 지원하도록 위치 임베딩을 구성합니다. Stage 2에서는 proximal representation learning을 통해 잠재 공간의 복잡도를 점진적으로 줄이고, FSQ 기반의 이산화와 다중 헤드 어텐션을 적용하여 양자화된 토큰의 표현력을 극대화합니다 [Figure 2].

성능 측면에서, ViQ는 대규모 벤치마크(MMStar, MMMU, OCRBench 등) 평가 결과, Qwen2.5-1.5B backbone 모델 사용 시 평균 점수 57.2, Qwen2.5-7B backbone 사용 시 63.9를 달성하여 기존 SOTA 모델들을 능가하는 성능을 보였습니다 [Table 2]. 특히, ViQ는 VLM 학습 효율성 면에서 기존 SigLIP2-g 대비 4k 및 16k 시퀀스 설정에서 20%-70% 수준의 훈련 속도 향상(training speed-up)을 입증하였습니다 [Figure 3]. 또한, 낮은 비트레이트 환경에서도 탁월한 이미지 재구성 품질을 유지하여 효율적인 시각 데이터 저장 도구로서의 가능성도 제시합니다.

4. Conclusion & Impact (결론 및 시사점)

본 논문은 시각적 신호를 이산적 토큰으로 효율적으로 변환하면서도 연속적 인코더 수준의 이해도를 유지하는 ViQ 프레임워크를 성공적으로 제안하였습니다. 이 연구는 MLLM 생태계 내에서 시각적 정보와 텍스트 사이의 데이터 표현을 통합하고, 학습 효율성을 비약적으로 개선했다는 점에서 큰 의의를 갖습니다. 향후 ViQ는 더욱 경량화된 모델 아키텍처와 고해상도 시각적 이해가 요구되는 멀티모달 시스템 설계에 중요한 표준적 토대를 제공할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] The Verification Horizon: No Silver Bullet for Coding Agent Rewards
현재글 : [논문리뷰] ViQ: Text-Aligned Visual Quantized Representations at Any Resolution
다음글 [논문리뷰] When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models