#Parallel Muon

1개의 포스트

[논문리뷰] Motif 2 12.7B technical report

대규모 언어 모델(LLM)의 효율성 한계를 확장하고, 제한된 컴퓨팅 자원 내에서 Motif-2-12.7B 모델이 우수한 성능을 발휘할 수 있음을 입증하는 것을 목표로 합니다. 특히 아키텍처 혁신과 시스템 수준 최적화를 통해 대형 모델에 필적하는 능력을 소규모 파라미터로 구현하고자 합니다.

#Review #Large Language Model #LLM Efficiency #Grouped Differential Attention #Kernel Fusion #Parallel Muon #Supervised Fine-tuning #Architectural Scaling #Instruction Following

2025년 11월 12일