[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.#Review#Vision Transformer#Generative Pre-training#Multimodal Large Language Models#Gated Attention#Vision-Language Pre-training#Minimalist Architecture2026년 5월 3일댓글 수 로딩 중