[논문리뷰] Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode본 논문은 Physical AI 환경에서 필수적인 batch-1 LLM decode가 단순히 HBM Bandwidth에 의해서만 제한되는 것이 아니라, CPU-side Launch Overhead에 의해 크게 제약받고 있음을 밝힙니다.#Review#Batch-1 Inference#LLM Decode#HBM Bandwidth#CUDA Graphs#Launch Overhead#Physical AI2026년 5월 31일댓글 수 로딩 중