#Generative Pre-training

1개의 포스트

[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training

본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.

#Review #Vision Transformer #Generative Pre-training #Multimodal Large Language Models #Gated Attention #Vision-Language Pre-training #Minimalist Architecture

2026년 5월 3일