#Vision-Language Pre-training

2개의 포스트

[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training

본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.

#Review #Vision Transformer #Generative Pre-training #Multimodal Large Language Models #Gated Attention #Vision-Language Pre-training #Minimalist Architecture

2026년 5월 3일

[논문리뷰] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

본 연구는 고품질의 중국어 이미지-텍스트 데이터 의 부족으로 인해 지연되었던 중국어 비전-언어 사전 훈련(VLP) 연구의 발전을 목표로 합니다. 최신 웹 데이터를 기반으로 한 대규모 고품질 중국어 크로스모달 데이터셋인 DanQing 을 구축하고, 이를 통해 중국어 VLP 모델의 성능을 향상시키는 것이 주된 목적입니다.

#Review #Vision-Language Pre-training #Chinese Dataset #Data Filtering #Cross-modal Retrieval #Zero-shot Classification #Multimodal LLMs #SigLIP

2026년 1월 15일