[논문리뷰] Synthetic bootstrapped pretraining본 논문은 대규모 언어 모델(LM) 사전 훈련 시 고품질 텍스트 데이터 고갈 문제를 해결하고, 표준 사전 훈련에서 간과되는 문서 간 풍부한 상관관계 를 효과적으로 모델링하여 LM 성능을 개선하는 것을 목표로 합니다. 기존 데이터의 활용도를 극대화하여 새로운 데이터 수집 없이 모델의 성능을 향상시키는 방법론을 제안합니다.#Review#Language Model Pretraining#Synthetic Data#Inter-document Correlation#Data Augmentation#Transformer#Bootstrapping#Concept Learning2025년 9월 23일댓글 수 로딩 중