[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.#Review#Time Series Forecasting#Foundation Model#Mixture-of-Experts (MoE)#Serial Scaling#Transformer#Pre-training#Probabilistic Forecasting#Data Augmentation2026년 3월 5일댓글 수 로딩 중
[논문리뷰] SageBwd: A Trainable Low-bit Attention저비트 어텐션 모델인 SageBwd 가 사전 훈련 시 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보이는 원인을 조사하고, SageBwd 가 사전 훈련에서 FPA 수준의 성능을 회복할 수 있는 조건을 밝히는 것을 목표로 합니다. 이를 통해 저비트 어텐션의 훈련 안정성과 적용 가능성을 확장하고자 합니다.#Review#Low-bit Attention#Quantization#Model Training#Pre-training#Backward Pass#QK-norm#SageBwd#Deep Learning Optimization2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training본 논문은 파운데이션 모델 학습 데이터 처리의 체계적인 프레임워크 부재 문제를 해결하고자 합니다.#Review#Data Darwinism#Scientific Data#Pre-training#Foundation Models#Data Processing Hierarchy#Generative Refinement#Cognitive Completion#Learnability Gap2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Real-Time Robotics#Diffusion Transformer#Flow Matching#Asynchronous Execution#Robot Manipulation#Pre-training#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[논문리뷰] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration대규모 언어 모델(LLM) 사전 훈련에서 고품질 데이터의 고갈 문제인 '데이터 장벽(Data Wall)'에 직면함에 따라, 기존의 비효율적이거나 최적화기 비인지적인 데이터 선택 방법의 한계를 해결하고자 합니다.#Review#Data Selection#Large Language Model#Pre-training#Optimizer-Induced Utility#Ghost Technique#CountSketch#Boltzmann Sampling2026년 2월 10일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical Report본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models본 논문은 경량 LLM이 높은 계산 효율성 을 유지하면서도 내재적인 에이전트 지능을 갖출 수 있도록 하는 것을 목표로 합니다. 특히, 기존의 증류(distillation) 방식이 아닌, sub-2B 규모 의 모델이 처음부터 추론 및 계획 능력 을 체계적으로 학습하도록 하는 데 중점을 둡니다.#Review#Lightweight LLM#Agentic AI#Pre-training#Multi-Latent Attention#Long-Context#Curriculum Learning#Agentic Mid-training#Instruction Tuning2025년 12월 31일댓글 수 로딩 중
[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.#Review#Tokenizer#Language Models (LMs)#Robustness#Multilingual NLP#Benchmark#Subword Segmentation#Pre-training#Tokenization Impact2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.#Review#Visual Tokenizers#Pre-training#Latent Diffusion Models#Generative Models#Vision Transformer#Contrastive Learning#Self-Supervised Learning#Scaling Laws2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.#Review#Embodied AI#Long-horizon Tasks#Vision-Language-Action Models (VLA)#BEHAVIOR Challenge#Offline RL#Pre-training#Rejection Sampling Fine-Tuning (RFT)#Robotics2025년 12월 15일댓글 수 로딩 중
[논문리뷰] On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models본 논문은 대규모 언어 모델(LLMs)에서 사전 훈련(pre-training), 중간 훈련(mid-training), 강화 학습(RL) 기반 후처리 훈련(post-training)이 추론 능력의 일반화에 미치는 상호작용과 인과적 영향을 명확히 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Pre-training#Mid-training#Reasoning LMs#Generalization#Synthetic Reasoning Tasks#Process-level Supervision2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Diffusion Language Models are Super Data Learners본 논문은 고품질 데이터 희소성이 LLM 훈련의 주요 병목이 되는 시대에, Autoregressive (AR) 모델 과 Diffusion Language Models (DLMs) 중 어떤 패러다임이 제한된 고유 데이터로부터 더 많은 신호를 추출하는지 규명하는 것을 목표로 합니다.#Review#Diffusion Language Models#Autoregressive Models#Data Efficiency#Scaling Laws#Data-Constrained Learning#Crossover Phenomenon#Pre-training#Masked Diffusion2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Thinking Augmented Pre-training본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Pre-training#Data Augmentation#Reasoning#Data Efficiency#Thinking Trajectories2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning on Pre-Training Data논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Pre-training#Large Language Models#Self-supervised Learning#Scaling Laws#Next-segment Reasoning#Reward Modeling2025년 9월 24일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.#Review#Vision-Language-Action Models#Latent Actions#Robot Manipulation#Pre-training#Diffusion Models#Proprioceptive Feedback#Foundation Models2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation Classification본 논문은 다양한 종류의 이미지 손상(degradation)을 복원하는 단일 모델(universal image restoration)의 성능을 향상시키기 위해, 기존 사전 훈련 방법론의 한계를 극복하고자 합니다.#Review#Universal Image Restoration#Pre-training#Masked Image Modeling#Degradation Classification#Deep Learning#Computer Vision#Self-supervised Learning#Low-level Vision2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Memory Retrieval and Consolidation in Large Language Models through Function Tokens본 논문은 대규모 언어 모델(LLMs) 내에서 기억 검색(memory retrieval) 및 기억 통합(memory consolidation) 메커니즘이 어떻게 작동하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#LLM Interpretability#Function Tokens#Memory Retrieval#Memory Consolidation#Sparse Autoencoders#Pre-training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection대규모 언어 모델(LLMs) 사전 훈련 시, 기존의 점수 기반 데이터 선택 방식이 다양성 부족으로 인해 성능 저하를 초래하는 문제를 해결하고자 합니다.#Review#Data Selection#Large Language Models (LLMs)#Data Diversity#Data Quality#Principal Component Analysis (PCA)#Orthogonal Dimensions#Pre-training2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.#Review#Multimodal Data Quality#MLLM#Synthetic Data#Data Filtering#Image-Text Captioning#Interleaved Document Analysis#Pre-training2025년 10월 20일댓글 수 로딩 중