[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.#Review#MARS#Autoregressive Model#Multi-Token Generation#Inference Acceleration#Block-Masked Prediction#Instruction-tuned LLM2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.#Review#LLM Optimizers#Benchmarking#Hyperparameter Tuning#AdamW#AdEMAMix#MARS#Mixture of Experts (MoE)#Weight Decay2025년 9월 3일댓글 수 로딩 중