#LLM Pre-training

2개의 포스트

[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training

본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Pre-training #Next Implicit Token Prediction #Representation Geometry #Representation Degeneration #Self-supervised Learning #MoE #Representation Expressivity

2026년 6월 1일

[논문리뷰] Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

Large Language Model (LLM) 사전 학습에서 효과적인 데이터 혼합 비율을 결정하는 것은 여전히 어려운 문제입니다.

#Review #LLM Pre-training #Data Mixture Optimization #Model Merging #Proxy Models #Resource Efficiency #DeMix #Corpus Curation

2026년 2월 3일