[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models본 논문은 Discrete Diffusion Language Models (DLMs) 의 스케일링 행동을 체계적으로 연구하여, 기존 Autoregressive Language Models (ALMs) 와의 경쟁력을 평가하고 DLMs의 핵심 한계점(예: 병렬 생성 및 수정 능력 부족)을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Scaling Laws#Language Models#Masked Diffusion#Uniform Diffusion#Hyperparameter Tuning#Compute-Optimal Training2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.#Review#Deep Learning Optimizers#Large Language Models#Hyperparameter Tuning#Pretraining Speedup#Scaling Laws#AdamW#Matrix-based Optimizers#Data-to-Model Ratio2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.#Review#LLM Optimizers#Benchmarking#Hyperparameter Tuning#AdamW#AdEMAMix#MARS#Mixture of Experts (MoE)#Weight Decay2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Training Dynamics Impact Post-Training Quantization Robustness본 연구는 대규모 언어 모델(LLM)의 효율적인 배포를 위해 널리 사용되는 Post-Training Quantization (PTQ) 의 견고성이 훈련 과정 및 동적 특성에 의해 어떻게 영향을 받는지 규명하는 것을 목표로 합니다.#Review#Post-Training Quantization#Quantization Robustness#Training Dynamics#Learning Rate Schedules#Weight Averaging#Large Language Models#LLMs#Hyperparameter Tuning2025년 10월 8일댓글 수 로딩 중