#MARS

2개의 포스트

[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation

본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.

#Review #MARS #Autoregressive Model #Multi-Token Generation #Inference Acceleration #Block-Masked Prediction #Instruction-tuned LLM

2026년 4월 8일

[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining

대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.

#Review #LLM Optimizers #Benchmarking #Hyperparameter Tuning #AdamW #AdEMAMix #MARS #Mixture of Experts (MoE)#Weight Decay

2025년 9월 3일