#Scaling Laws

32개의 포스트

[논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

arXiv에 게시된 'UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems' 논문에 대한 자세한 리뷰입니다.

#Review #Recommendation Systems #Scaling Laws #UniMixer #Feature Interaction #TokenMixer #Unified Architecture

2026년 4월 1일

[논문리뷰] daVinci-LLM:Towards the Science of Pretraining

arXiv에 게시된 'daVinci-LLM:Towards the Science of Pretraining' 논문에 대한 자세한 리뷰입니다.

#Review #Pretraining #Data Darwinism #LLM #Transparency #Data Processing #Scaling Laws #Reasoning

2026년 3월 31일

[논문리뷰] Efficient Exploration at Scale

arXiv에 게시된 'Efficient Exploration at Scale' 논문에 대한 자세한 리뷰입니다.

#Review #RLHF #Data Efficiency #Active Exploration #Epistemic Neural Network #Information-Directed Sampling #Scaling Laws #Large Language Models #Online Learning

2026년 3월 18일

[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining

arXiv에 게시된 'Beyond Language Modeling: An Exploration of Multimodal Pretraining' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Pretraining #Vision-Language Models #Mixture-of-Experts (MoE)#Representation Autoencoders (RAE)#World Modeling #Scaling Laws #Diffusion Models #Unified Architectures

2026년 3월 3일

[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models

arXiv에 게시된 'The Design Space of Tri-Modal Masked Diffusion Models' 논문에 대한 자세한 리뷰입니다.

#Review #Masked Diffusion Models #Multimodal AI #Scaling Laws #Discrete Diffusion #SDE Parameterization #Hyperparameter Transfer #Unified Generation

2026년 2월 25일

[논문리뷰] Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Sham Kakade이 arXiv에 게시한 'Prescriptive Scaling Reveals the Evolution of Language Model Capabilities' 논문에 대한 자세한 리뷰입니다.

#Review #Prescriptive Scaling #Language Models #Capability Boundaries #Quantile Regression #Scaling Laws #Temporal Stability #I-Optimal Design #Benchmark Saturation

2026년 2월 17일

[논문리뷰] X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Jane Luo이 arXiv에 게시한 'X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests' 논문에 대한 자세한 리뷰입니다.

#Review #Competitive Programming #Code LLMs #Synthetic Data Generation #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Dual Verification #Scaling Laws #SynthSmith

2026년 1월 12일

[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

arXiv에 게시된 'Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space' 논문에 대한 자세한 리뷰입니다.

#Review #Hierarchical Language Model #Concept-Level Reasoning #Dynamic Segmentation #Adaptive Computation #Scaling Laws #Maximal Update Parametrization #Next-Token Prediction #Flash Attention

2026년 1월 1일

[논문리뷰] An Information Theoretic Perspective on Agentic System Design

arXiv에 게시된 'An Information Theoretic Perspective on Agentic System Design' 논문에 대한 자세한 리뷰입니다.

#Review #Agentic Systems #Language Models #Mutual Information #Rate-Distortion Theory #Compute Efficiency #Scaling Laws #Compressor-Predictor Architecture #On-device AI

2025년 12월 29일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

arXiv에 게시된 'Towards Scalable Pre-training of Visual Tokenizers for Generation' 논문에 대한 자세한 리뷰입니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일

[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models

arXiv에 게시된 'Scaling Behavior of Discrete Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Discrete Diffusion Models #Scaling Laws #Language Models #Masked Diffusion #Uniform Diffusion #Hyperparameter Tuning #Compute-Optimal Training

2025년 12월 14일

[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

arXiv에 게시된 'From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence' 논문에 대한 자세한 리뷰입니다.

#Review #Code LLMs #Software Engineering Agents #Code Generation #Reinforcement Learning #Supervised Fine-tuning #Multimodal AI #Code Safety #Scaling Laws

2025년 12월 1일

[논문리뷰] Virtual Width Networks

arXiv에 게시된 'Virtual Width Networks' 논문에 대한 자세한 리뷰입니다.

#Review #Virtual Width Networks #Transformer #Mixture-of-Experts (MoE)#Scaling Laws #Representation Learning #Model Efficiency #Multi-Token Prediction #Hyper-Connections

2025년 11월 16일

[논문리뷰] Diffusion Language Models are Super Data Learners

arXiv에 게시된 'Diffusion Language Models are Super Data Learners' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Language Models #Autoregressive Models #Data Efficiency #Scaling Laws #Data-Constrained Learning #Crossover Phenomenon #Pre-training #Masked Diffusion

2025년 11월 9일

[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

arXiv에 게시된 'Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Mixture-of-Experts #Reasoning Capability #Sparse Activation #Scaling Laws #FP8 Training #Efficient Training #Instruction Tuning

2025년 11월 9일

[논문리뷰] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

arXiv에 게시된 'ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality' 논문에 대한 자세한 리뷰입니다.

#Review #Multilingual LLMs #Scaling Laws #Transfer Learning #Curse of Multilinguality #Pretraining #Finetuning #Language Models #Adaptive Scaling

2025년 10월 29일

[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

arXiv에 게시된 'Robust Layerwise Scaling Rules by Proper Weight Decay Tuning' 논문에 대한 자세한 리뷰입니다.

#Review #Weight Decay Scaling #Maximal-Update Parameterization (µP)#AdamW #Transformer #Hyperparameter Transfer #Scaling Laws #Singular Value Spectrum #Steady State Training

2025년 10월 20일

[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs

arXiv에 게시된 'The Art of Scaling Reinforcement Learning Compute for LLMs' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Compute Efficiency #Predictability #Sigmoidal Curves #ScaleRL #Off-Policy RL

2025년 10월 16일

[논문리뷰] Scaling Language-Centric Omnimodal Representation Learning

arXiv에 게시된 'Scaling Language-Centric Omnimodal Representation Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Embeddings #MLLMs #Contrastive Learning #Cross-modal Alignment #Generative Pretraining #Representation Learning #Scaling Laws

2025년 10월 15일

[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

arXiv에 게시된 'NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Large Language Models #Native MLLMs #Scaling Laws #Data Constraints #Visual Encoder #LLM Initialization #Mixture-of-Experts #End-to-end Training

2025년 10월 10일

[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization

arXiv에 게시된 'Beyond Outliers: A Study of Optimizers Under Quantization' 논문에 대한 자세한 리뷰입니다.

#Review #Quantization #Optimizers #LLM #Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation #Scaling Laws #Shampoo

2025년 10월 10일

[논문리뷰] Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

arXiv에 게시된 'Hybrid Architectures for Language Models: Systematic Analysis and Design Insights' 논문에 대한 자세한 리뷰입니다.

#Review #Hybrid LLM #Transformer Architecture #Mamba #State Space Models (SSM)#Computational Efficiency #Long-Context #Language Model Architectures #Scaling Laws

2025년 10월 7일

[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration

arXiv에 게시된 'BroRL: Scaling Reinforcement Learning via Broadened Exploration' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Exploration #Rollout Size #Verifiable Rewards #PPO #Mass Balance Equation

2025년 10월 2일

[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

arXiv에 게시된 'Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models' 논문에 대한 자세한 리뷰입니다.

#Review #Test-Time Training (TTT)#Foundation Models #Underparameterization #Sparse Autoencoders (SAE)#Linear Representation Hypothesis (LRH)#Specialization #Scaling Laws #In-Distribution Data

2025년 10월 1일

[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models

Javad Lavaei이 arXiv에 게시한 'StyleBench: Evaluating thinking styles in Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Reasoning Strategies #Prompt Engineering #LLM Evaluation #Benchmark #Thinking Styles #Scaling Laws #Meta-Reasoning

2025년 9월 26일

[논문리뷰] Reinforcement Learning on Pre-Training Data

Evander Yang이 arXiv에 게시한 'Reinforcement Learning on Pre-Training Data' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #Pre-training #Large Language Models #Self-supervised Learning #Scaling Laws #Next-segment Reasoning #Reward Modeling

2025년 9월 24일

[논문리뷰] Scaling Agents via Continual Pre-training

Guangyu Li이 arXiv에 게시한 'Scaling Agents via Continual Pre-training' 논문에 대한 자세한 리뷰입니다.

#Review #Agentic LLMs #Continual Pre-training #Deep Research Agents #Tool Use #Multi-step Reasoning #Data Synthesis #Scaling Laws

2025년 9월 17일

[논문리뷰] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

Jonas Geiping이 arXiv에 게시한 'The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Long-Horizon Tasks #Execution Capability #Scaling Laws #Self-Conditioning #Thinking Models #Agentic AI

2025년 9월 15일

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

Bailiang Jian이 arXiv에 게시한 'Does DINOv3 Set a New Medical Vision Standard?' 논문에 대한 자세한 리뷰입니다.

#Review #Medical Imaging #Foundation Models #DINOv3 #Self-Supervised Learning #Vision Transformer #2D/3D Classification #Segmentation #Domain Adaptation #Scaling Laws

2025년 9월 9일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

Percy Liang이 arXiv에 게시한 'Fantastic Pretraining Optimizers and Where to Find Them' 논문에 대한 자세한 리뷰입니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일

[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models

Vivien Cabannes이 arXiv에 게시한 'Provable Benefits of In-Tool Learning for Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #In-Tool Learning #In-Weight Learning #Factual Recall #Retrieval-Augmented Generation #Scaling Laws #Parameter Efficiency #Catastrophic Forgetting

2025년 8월 29일

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Daisuke Nohara이 arXiv에 게시한 'Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks' 논문에 대한 자세한 리뷰입니다.

#Review #Mixture-of-Experts (MoE)#Sparsity #Scaling Laws #Reasoning Tasks #Memorization #Large Language Models #Generalization Gap #Top-k Routing

2025년 8월 27일