[Ray Data] AutoscalingCoordinator에서 여러 데이터셋 실행 시 리소스 이중 할당 방지request_remaining=True인 요청자가 여러 개일 때 잔여 리소스를 모두에게 중복 할당하던 문제를 균등 분배로 수정한 분석.#Ray#Python#Bug Fix#Autoscaling#Resource Management2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference전통적인 자동 스케일러가 Prefill-Decode (P/D) 분리형 아키텍처 를 사용하는 대규모 언어 모델(LLM) 추론 환경에서 비효율적이라는 문제에 직면했습니다. 이로 인해 이기종 하드웨어의 비효율적인 사용, 네트워크 병목 현상, 그리고 Prefill 및 Decode 단계 간의 불균형이 발생합니다.#Review#LLM Inference#Autoscaling#Disaggregated Architecture#Heterogeneous Hardware#Resource Management#Topology-aware Scheduling#GPU Utilization2025년 8월 28일댓글 수 로딩 중