#Image-Text Models

1개의 포스트

[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

OpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision Encoder #Generative Pretraining #Captioning Loss #Training Efficiency #Image-Text Models #Large Language Models

2025년 9월 3일