[논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

2026년 4월 1일수정: 2026년 4월 1일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Zifan He, Rui Ma, Yizhou Sun, Jason Cong

1. Key Terms & Definitions (핵심 용어 및 정의)

Memory Processing Pipeline : LLM 추론 시 원시 메모리(KV 캐시 등)를 처리하여 최종 토큰 생성에 통합하는 4단계 프로세스(Prepare Memory, Compute Relevancy, Retrieval, Apply to Inference).
Heterogeneous System : 서로 다른 컴퓨팅 특성을 가진 하드웨어(GPU, FPGA 등)를 조합하여 특정 워크로드의 성능을 최적화하는 시스템.
Arithmetic Intensity : 특정 연산의 FLOPs를 데이터 바이트 수로 나눈 값으로, 연산이 compute-bound인지 memory-bound인지 판단하는 지표.
HBM (High Bandwidth Memory) : GPU 및 FPGA에서 높은 대역폭을 제공하여 병목 현상을 완화하는 고성능 메모리 기술.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대 LLM 추론에서 필수적인 긴 컨텍스트 처리 기법들이 파편화된 메모리 처리 구조로 인해 상당한 성능 저하를 일으킨다는 문제를 해결하고자 한다. 기존 LLM 최적화 방법들은 주로 개별적인 알고리즘 개선에 집중해 왔으며, 하드웨어 수준에서의 체계적인 가속 프레임워크가 부족하다는 한계가 있다. 연구진은 체계적인 프로파일링을 통해 Memory Processing 이 전체 추론 지연 시간(latency)의 22%~97%를 점유하고 있음을 확인하였다 [Figure 3, Figure 4]. 따라서 이러한 메모리 처리 파이프라인의 연산 이질성(heterogeneity)을 활용한 새로운 가속 시스템이 필요하다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 LLM 메모리 처리를 Prepare Memory , Compute Relevancy , Retrieval , Apply to Inference 의 4단계 파이프라인으로 통합 정의하고, 이를 GPU-FPGA 헤테로지니어스 시스템에 매핑하는 새로운 아키텍처를 제안한다 [Figure 2]. 저자들은 계산 집약적 연산은 GPU 에 유지하고, Sparse하고 불규칙한 메모리 접근 패턴을 가진 메모리 집약적(memory-bound) 연산은 FPGA 의 커스텀 데이터플로우 엔진으로 오프로드(offload)하는 전략을 채택한다 [Figure 6, Figure 7]. 실험 결과, AMD MI210 GPU 와 Alveo U55C FPGA 기반 시스템은 기존 GPU 단일 가속 대비 1.04~2.2배 의 엔드투엔드(End-to-End) 속도 향상을 달성하였다. 또한, 다양한 최적화 기법에서 1.11~4.7배 더 적은 에너지를 소비하여 뛰어난 에너지 효율성을 입증하였다 [Table 3].

Figure 2: 4단계 메모리 처리 파이프라인 흐름

Figure 2 — 4단계 메모리 처리 파이프라인 흐름

4. Conclusion & Impact (결론 및 시사점)

본 연구는 LLM 추론 가속의 새로운 지평을 여는 헤테로지니어스 하드웨어 전략을 제시하였다. 메모리 처리 파이프라인의 계산적 특성을 분석하고, 이를 FPGA와 GPU에 분산 처리함으로써 긴 컨텍스트(long-context) 추론에서의 병목을 효과적으로 해소하였다. 본 연구의 결과는 향후 전용 헤테로지니어스 ASIC 설계 및 차세대 LLM 추론 시스템 구축을 위한 실질적인 가이드라인을 제공할 것으로 기대된다.

Figure 6: GPU-FPGA 시스템 커널 매핑

Figure 6 — GPU-FPGA 시스템 커널 매핑

Figure 7: FPGA 커널 아키텍처 구성

Figure 7 — FPGA 커널 아키텍처 구성

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding
현재글 : [논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference
다음글 [논문리뷰] UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems