#GPU Utilization

2개의 포스트

[논문리뷰] Janus: Disaggregating Attention and Experts for Scalable MoE Inference

본 연구는 대규모 Mixture-of-Experts (MoE) 모델 추론 시 발생하는 높은 자원 요구량, 동적 워크로드, 그리고 어텐션 및 전문가 레이어 간의 이질적인 컴퓨팅 요구사항 문제를 해결하고자 합니다.

#Review #MoE Inference #Disaggregated Architecture #Resource Management #Scalability #Load Balancing #GPU Utilization #Communication Optimization

2025년 12월 16일

[논문리뷰] Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference

전통적인 자동 스케일러가 Prefill-Decode (P/D) 분리형 아키텍처 를 사용하는 대규모 언어 모델(LLM) 추론 환경에서 비효율적이라는 문제에 직면했습니다. 이로 인해 이기종 하드웨어의 비효율적인 사용, 네트워크 병목 현상, 그리고 Prefill 및 Decode 단계 간의 불균형이 발생합니다.

#Review #LLM Inference #Autoscaling #Disaggregated Architecture #Heterogeneous Hardware #Resource Management #Topology-aware Scheduling #GPU Utilization

2025년 8월 28일