#Efficient Attention

1개의 포스트

[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다.

#Review #Small Language Models (SLMs)#Latency Optimization #Hybrid Architectures #Evolutionary Search #Weight Normalization #Efficient Attention #Depth-Width Ratios #Real-device Efficiency

2025년 11월 30일