[논문리뷰] Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora본 연구는 고품질의 구조화된 아랍어 다중모드 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다. 특히, 웹 문서의 구조적 무결성 과 텍스트-이미지 인터리빙(interleaving) 을 보존하면서 대규모 아랍어 다중모드 코퍼스를 구축하기 위한 파이프라인인 Wasm 을 제시합니다.#Review#Arabic Language#Multimodal Corpus#Data Curation#Web Scraping#Large Language Models#Document Structure#Markdown#Perplexity Filtering2025년 11월 11일댓글 수 로딩 중