[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.#Review#Multimodal Data Quality#MLLM#Synthetic Data#Data Filtering#Image-Text Captioning#Interleaved Document Analysis#Pre-training2025년 10월 20일댓글 수 로딩 중