#Mamba-Transformer

3개의 포스트

[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

arXiv에 게시된 'Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning' 논문에 대한 자세한 리뷰입니다.

#Review #Mixture-of-Experts #Mamba-Transformer #Agentic Reasoning #Long Context LLM #FP8 Quantization #Supervised Fine-Tuning #Reinforcement Learning

2025년 12월 24일

[논문리뷰] NVIDIA Nemotron Nano V2 VL

arXiv에 게시된 'NVIDIA Nemotron Nano V2 VL' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Model #Hybrid Architecture #Mamba-Transformer #Long-Context Understanding #Quantization #Efficient Inference #Document AI #Video AI

2025년 11월 9일

[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

abercovich이 arXiv에 게시한 'NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model' 논문에 대한 자세한 리뷰입니다.

#Review #Hybrid Architecture #Mamba-Transformer #Reasoning LLM #Model Compression #Knowledge Distillation #Long Context #High Throughput #FP8 Training #Instruction Following

2025년 8월 21일