[논문리뷰] Cluster, Route, Escalate: Cascaded Framework for Cost-Aware LLM Serving본 논문은 프로덕션 환경에서 LLM 배포 시 발생하는 정확도와 비용(Latency) 간의 트레이드오프 문제를 해결하기 위한 Cascaded Framework를 제안합니다.#Review#LLM Serving#Model Routing#Cost-Aware Inference#Quality Estimation#Cascaded Framework#Pareto Analysis#TPOT2026년 6월 28일댓글 수 로딩 중