[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, 1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0) 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Reasoning Capability#Sparse Activation#Scaling Laws#FP8 Training#Efficient Training#Instruction Tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Metis: Training Large Language Models with Advanced Low-Bit Quantization본 논문은 대규모 언어 모델(LLMs)을 저비트 양자화로 훈련할 때 발생하는 이방성 매개변수 분포 가 불안정한 훈련과 성능 저하의 주된 원인임을 식별하고, 이를 해결하여 견고하고 효율적인 저비트 훈련을 가능하게 하는 새로운 프레임워크인 Metis 를 제안합니다.#Review#Low-Bit Quantization#LLMs#Spectral Decomposition#Anisotropy#Adaptive Learning Rate#Regularization#FP8 Training#FP4 Training2025년 9월 3일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.#Review#Hybrid Architecture#Mamba-Transformer#Reasoning LLM#Model Compression#Knowledge Distillation#Long Context#High Throughput#FP8 Training#Instruction Following2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.#Review#Long-Context LLM#Hybrid Attention#Linear Attention#Mixture-of-Experts#FP8 Training#GPU Optimization#Training-Inference Alignment#Reinforcement Learning2025년 10월 23일댓글 수 로딩 중