[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.#Review#Vision Transformer#Generative Pre-training#Multimodal Large Language Models#Gated Attention#Vision-Language Pre-training#Minimalist Architecture2026년 5월 3일댓글 수 로딩 중
[논문리뷰] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset본 연구는 고품질의 중국어 이미지-텍스트 데이터 의 부족으로 인해 지연되었던 중국어 비전-언어 사전 훈련(VLP) 연구의 발전을 목표로 합니다. 최신 웹 데이터를 기반으로 한 대규모 고품질 중국어 크로스모달 데이터셋인 DanQing 을 구축하고, 이를 통해 중국어 VLP 모델의 성능을 향상시키는 것이 주된 목적입니다.#Review#Vision-Language Pre-training#Chinese Dataset#Data Filtering#Cross-modal Retrieval#Zero-shot Classification#Multimodal LLMs#SigLIP2026년 1월 15일댓글 수 로딩 중