#Pre-training

19개의 포스트

[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.

#Review #Time Series Forecasting #Foundation Model #Mixture-of-Experts (MoE)#Serial Scaling #Transformer #Pre-training #Probabilistic Forecasting #Data Augmentation

2026년 3월 5일

[논문리뷰] SageBwd: A Trainable Low-bit Attention

저비트 어텐션 모델인 SageBwd 가 사전 훈련 시 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보이는 원인을 조사하고, SageBwd 가 사전 훈련에서 FPA 수준의 성능을 회복할 수 있는 조건을 밝히는 것을 목표로 합니다. 이를 통해 저비트 어텐션의 훈련 안정성과 적용 가능성을 확장하고자 합니다.

#Review #Low-bit Attention #Quantization #Model Training #Pre-training #Backward Pass #QK-norm #SageBwd #Deep Learning Optimization

2026년 3월 5일

[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

본 논문은 파운데이션 모델 학습 데이터 처리의 체계적인 프레임워크 부재 문제를 해결하고자 합니다.

#Review #Data Darwinism #Scientific Data #Pre-training #Foundation Models #Data Processing Hierarchy #Generative Refinement #Cognitive Completion #Learnability Gap

2026년 2월 16일

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Real-Time Robotics #Diffusion Transformer #Flow Matching #Asynchronous Execution #Robot Manipulation #Pre-training #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

대규모 언어 모델(LLM) 사전 훈련에서 고품질 데이터의 고갈 문제인 '데이터 장벽(Data Wall)'에 직면함에 따라, 기존의 비효율적이거나 최적화기 비인지적인 데이터 선택 방법의 한계를 해결하고자 합니다.

#Review #Data Selection #Large Language Model #Pre-training #Optimizer-Induced Utility #Ghost Technique #CountSketch #Boltzmann Sampling

2026년 2월 10일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

본 논문은 경량 LLM이 높은 계산 효율성 을 유지하면서도 내재적인 에이전트 지능을 갖출 수 있도록 하는 것을 목표로 합니다. 특히, 기존의 증류(distillation) 방식이 아닌, sub-2B 규모 의 모델이 처음부터 추론 및 계획 능력 을 체계적으로 학습하도록 하는 데 중점을 둡니다.

#Review #Lightweight LLM #Agentic AI #Pre-training #Multi-Latent Attention #Long-Context #Curriculum Learning #Agentic Mid-training #Instruction Tuning

2025년 12월 31일

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일

[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge

2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.

#Review #Embodied AI #Long-horizon Tasks #Vision-Language-Action Models (VLA)#BEHAVIOR Challenge #Offline RL #Pre-training #Rejection Sampling Fine-Tuning (RFT)#Robotics

2025년 12월 15일

[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Pre-training #Mid-training #Reasoning LMs #Generalization #Synthetic Reasoning Tasks #Process-level Supervision

2025년 12월 8일

[논문리뷰] Diffusion Language Models are Super Data Learners

본 논문은 고품질 데이터 희소성이 LLM 훈련의 주요 병목이 되는 시대에, Autoregressive (AR) 모델 과 Diffusion Language Models (DLMs) 중 어떤 패러다임이 제한된 고유 데이터로부터 더 많은 신호를 추출하는지 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Autoregressive Models #Data Efficiency #Scaling Laws #Data-Constrained Learning #Crossover Phenomenon #Pre-training #Masked Diffusion

2025년 11월 9일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] Reinforcement Learning on Pre-Training Data

논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.

#Review #Vision-Language-Action Models #Latent Actions #Robot Manipulation #Pre-training #Diffusion Models #Proprioceptive Feedback #Foundation Models

2025년 8월 2일

[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation Classification

본 논문은 다양한 종류의 이미지 손상(degradation)을 복원하는 단일 모델(universal image restoration)의 성능을 향상시키기 위해, 기존 사전 훈련 방법론의 한계를 극복하고자 합니다.

#Review #Universal Image Restoration #Pre-training #Masked Image Modeling #Degradation Classification #Deep Learning #Computer Vision #Self-supervised Learning #Low-level Vision

2025년 10월 16일

[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens

본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #LLM Interpretability #Function Tokens #Memory Retrieval #Memory Consolidation #Sparse Autoencoders #Pre-training

2025년 10월 10일

[논문리뷰] Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

대규모 언어 모델(LLMs) 사전 훈련 시, 기존의 점수 기반 데이터 선택 방식이 다양성 부족으로 인해 성능 저하를 초래하는 문제를 해결하고자 합니다.

#Review #Data Selection #Large Language Models (LLMs)#Data Diversity #Data Quality #Principal Component Analysis (PCA)#Orthogonal Dimensions #Pre-training

2025년 10월 23일

[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data

멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.

#Review #Multimodal Data Quality #MLLM #Synthetic Data #Data Filtering #Image-Text Captioning #Interleaved Document Analysis #Pre-training

2025년 10월 20일