#Hyperparameter Tuning

4개의 포스트

[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models

arXiv에 게시된 'Scaling Behavior of Discrete Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Discrete Diffusion Models #Scaling Laws #Language Models #Masked Diffusion #Uniform Diffusion #Hyperparameter Tuning #Compute-Optimal Training

2025년 12월 14일

[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness

Jonas Geiping이 arXiv에 게시한 'Training Dynamics Impact Post-Training Quantization Robustness' 논문에 대한 자세한 리뷰입니다.

#Review #Post-Training Quantization #Quantization Robustness #Training Dynamics #Learning Rate Schedules #Weight Averaging #Large Language Models #LLMs #Hyperparameter Tuning

2025년 10월 8일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

Percy Liang이 arXiv에 게시한 'Fantastic Pretraining Optimizers and Where to Find Them' 논문에 대한 자세한 리뷰입니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일

[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining

mjaggi이 arXiv에 게시한 'Benchmarking Optimizers for Large Language Model Pretraining' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Optimizers #Benchmarking #Hyperparameter Tuning #AdamW #AdEMAMix #MARS #Mixture of Experts (MoE)#Weight Decay

2025년 9월 3일