[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.#SGLang#GPU Optimization#FP8 Quantization#Deep Learning Inference#Cutlass#Performance Tuning2026년 6월 12일댓글 수 로딩 중
[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.#Review#Reinforcement Learning#FP8 Quantization#LLM Training#On-Policy RL#Unified Precision Flow#Training Efficiency#Rollout Acceleration2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale아랍어 고품질 명령어 데이터의 부족과 다국어 LLM에서 언어별 깊이의 불균형 문제를 해결하는 것을 목표로 합니다. 효율적인 번역-튜닝 파이프라인 을 통해 아랍어 중심의 명령어 및 번역 모델(HALA) 패밀리를 구축하고, 아랍어 벤치마크에서 최첨단 성능을 달성하여 특정 언어에 대한 역량 심화에 중점을 둡니다.#Review#Arabic NLP#Instruction Tuning#Machine Translation#Large Language Models#FP8 Quantization#Data Bootstrapping#Model Merging#Language-Centric AI2025년 9월 18일댓글 수 로딩 중