[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.#Review#HTML Extraction#Web Corpus#Large Language Models#Data Curation#Structured Element Preservation#Sequence Labeling#Markdown Conversion#MainWebBench2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR본 논문은 필기체 스크립트, 다양한 글꼴, 발음 기호, 우-좌향 텍스트 방향성으로 인해 어려운 아랍어 문서 OCR의 과제를 해결하고자 합니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중