본문으로 건너뛰기

#Scaling Laws

37개의 포스트

[논문리뷰] Efficient Exploration at Scale

댓글 수 로딩 중

[논문리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining

댓글 수 로딩 중

[논문리뷰] X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

댓글 수 로딩 중

[논문리뷰] Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

댓글 수 로딩 중

[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models

댓글 수 로딩 중

[논문리뷰] Diffusion Language Models are Super Data Learners

댓글 수 로딩 중

[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

댓글 수 로딩 중

[논문리뷰] Scaling Agents via Continual Pre-training

댓글 수 로딩 중

[논문리뷰] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

댓글 수 로딩 중

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

댓글 수 로딩 중

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

댓글 수 로딩 중

[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models

댓글 수 로딩 중

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

댓글 수 로딩 중

[논문리뷰] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

댓글 수 로딩 중

[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

댓글 수 로딩 중

[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

댓글 수 로딩 중