[논문리뷰] Janus: Disaggregating Attention and Experts for Scalable MoE Inference본 연구는 대규모 Mixture-of-Experts (MoE) 모델 추론 시 발생하는 높은 자원 요구량, 동적 워크로드, 그리고 어텐션 및 전문가 레이어 간의 이질적인 컴퓨팅 요구사항 문제를 해결하고자 합니다.#Review#MoE Inference#Disaggregated Architecture#Resource Management#Scalability#Load Balancing#GPU Utilization#Communication Optimization2025년 12월 16일댓글 수 로딩 중