[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입

2026년 5월 13일수정: 2026년 5월 13일

PR 링크: vllm-project/vllm#40327 상태: Merged | 변경: +0 / -0

들어가며

최근 대규모 언어 모델(LLM)의 발전은 모델의 추론 속도 향상을 위한 효율적인 하드웨어 활용을 요구하고 있습니다. 특히 어텐션 메커니즘은 LLM의 핵심 연산으로, 이를 최적화하는 것은 전체 모델 성능에 지대한 영향을 미칩니다. NVIDIA GPU 외에도 Intel의 XPU와 같은 다양한 가속기 하드웨어의 등장은 각 하드웨어의 특성에 맞는 최적화 전략을 필요로 합니다.

vLLM 프로젝트의 이번 PR은 이러한 요구에 부응하여, Triton 통합 어텐션 커널에 Tensor Descriptor (TD) 로드/스토어 경로를 추가함으로써 Intel XPU에서 하드웨어 2D 블록 읽기를 활용할 수 있도록 개선했습니다. 이 변경은 특히 Intel의 Xe2/Xe3 아키텍처에서 잠재적인 성능 향상을 가져올 것으로 기대됩니다. 또한, 기존의 포인터 기반 경로를 유지하면서도 컴파일 타임에 불필요한 코드를 제거하여 성능 오버헤드를 최소화하는 영리한 설계를 채택했습니다.

이 글에서는 해당 PR의 코드 변경 사항을 상세히 분석하고, Tensor Descriptor 최적화가 왜 효과적인지, 그리고 이를 통해 얻을 수 있는 일반적인 교훈은 무엇인지 기술 블로그 형식으로 설명하고자 합니다.

코드 분석

이번 PR의 핵심은 Triton 커널 내에서 데이터를 로드하고 저장하는 방식을 최적화하는 것입니다. 특히 Intel XPU의 하드웨어 기능을 활용하기 위해 Tensor Descriptor를 도입했습니다. 주요 변경 사항은 다음과 같습니다.

1. `vllm/v1/attention/ops/triton_unified_attention.py`

이 파일은 Triton 커널의 핵심 로직을 담고 있으며, Tensor Descriptor 지원을 위한 여러 함수와 로직이 추가되었습니다.

새로운 Tensor Descriptor (TD) 헬퍼 함수 추가:

_load_q_td: 쿼리(Q) 데이터를 Tensor Descriptor를 사용하여 로드하는 함수입니다.
_load_kv_tile_td: 키(K)/값(V) 타일을 Tensor Descriptor를 사용하여 로드하는 함수입니다.
_store_output_td: 어텐션 연산의 결과를 Tensor Descriptor를 사용하여 저장하는 함수입니다. 이 함수는 2D 및 3D 에필로그 모두에서 공유되며, 베이스 포인터와 스트라이드만 다릅니다.

kernel_unified_attention 함수의 변경:

USE_TD 및 USE_TD_QO라는 새로운 tl.constexpr 파라미터가 추가되었습니다. 이들은 컴파일 타임에 TD 경로 사용 여부를 결정합니다.
tl.static_assert(BLOCK_SIZE % TILE_SIZE == 0) 조건이 USE_TD 하에서 추가되었습니다. 이는 TD 경로 사용 시 특정 조건을 만족해야 함을 명시합니다.

로드 및 스토어 경로 선택:

쿼리 로드, 키/값 타일 로드, 그리고 2D/3D 출력 스토어 로직에서 컴파일 타임에 USE_TD 값에 따라 TD 경로 또는 기존 포인터 경로를 선택하게 됩니다.
키/값 타일 로드에서는 스칼라 tl.load를 통해 물리적 블록 인덱스를 가져옵니다. 이는 static_assert 조건 하에서 안전하게 수행됩니다.

코드 예시 (Before/After):

기존의 포인터 기반 로드 로직은 다음과 같을 수 있습니다 (간략화):

# Before (Conceptual)
# query_ptr = ...
# query_offset = ...
# q = tl.load(query_ptr + query_offset)

새로운 TD 기반 로드 로직은 다음과 같이 _load_q_td 함수를 호출합니다:

# After (Conceptual)
# q = _load_q_td(
#     query_ptr=query_ptr,
#     query_stride_0=query_stride_0,
#     query_stride_1=query_stride_1,
#     ...
# )

이 변경은 Triton 컴파일러가 USE_TD 값을 기반으로 TD 관련 코드를 포함하거나 제거하도록 지시합니다. 만약 USE_TD가 False이면, 해당 TD 관련 코드는 컴파일 타임에 제거되어 런타임 오버헤드가 전혀 발생하지 않습니다.

2. `vllm/v1/attention/backends/triton_attn.py`

이 파일은 Triton 백엔드의 설정을 담당하며, use_td 옵션의 기본 동작을 정의합니다.

self.use_td = current_platform.is_xpu(): 환경 변수 VLLM_TRITON_ATTN_USE_TD가 설정되지 않은 경우, 현재 플랫폼이 XPU이면 use_td를 자동으로 활성화합니다. 다른 플랫폼에서는 기본적으로 비활성화 상태를 유지합니다.

코드 예시 (Before/After):

--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -7,6 +7,7 @@
 
 import torch
 
+import vllm.envs as envs
 from vllm._aiter_ops import rocm_aiter_ops
 from vllm.config import CUDAGraphMode, VllmConfig
 from vllm.config.cache import CacheDType
@@ -502,6 +503,21 @@
         self._kv_quant_mode = get_kv_quant_mode(kv_cache_dtype)
         self._is_per_token_head_quant = self._kv_quant_mode.is_per_token_head
 
+        # Enable tensor descriptors for Q/K/V load/store on platforms that
+        # benefit from HW 2D block reads (Intel Xe2/Xe3).  The dead branch
+        # is eliminated at Triton compile time, so other platforms see
+        # zero cost when TD is off.
+        #
+        # ``VLLM_TRITON_ATTN_USE_TD`` is tri-state:
+        #   - unset (None): auto-select (TD on for XPU, off elsewhere),
+        #   - ``1``: force TD on regardless of platform,
+        #   - ``0``: force TD off regardless of platform (useful for A/B).
+        td_override = envs.VLLM_TRITON_ATTN_USE_TD
+        if td_override is None:
+            self.use_td = current_platform.is_xpu()
+        else:
+            self.use_td = td_override
+
     def forward(
         self,
         layer: torch.nn.Module,
@@ -637,6 +653,7 @@
             k_scale_cache=k_scale_cache,
             v_scale_cache=v_scale_cache,
             chunk_lookback=self.chunk_lookback,
+            use_td=self.use_td,
         )
 
         return output

3. `vllm/envs.py`

환경 변수 설정을 위한 vllm/envs.py 파일에도 변경 사항이 있습니다.

VLLM_TRITON_ATTN_USE_TD 환경 변수가 새로 등록되었습니다. 이 변수는 TD 경로 사용 여부를 세 가지 상태로 제어할 수 있습니다:
- 설정되지 않음 (기본값): 플랫폼 자동 선택 (현재 XPU만 활성화).
- `

참고 자료

https://pytorch.org/docs/stable/generated/torch.compile.html

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석
현재글 : [vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입
다음글 [pydantic-ai] Pydantic AI, 도구 검색 기능 도입으로 에이전트의 도구 관리 혁신

[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입

들어가며

코드 분석

1. `vllm/v1/attention/ops/triton_unified_attention.py`

2. `vllm/v1/attention/backends/triton_attn.py`

3. `vllm/envs.py`

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글

들어가며

코드 분석

1. vllm/v1/attention/ops/triton_unified_attention.py

2. vllm/v1/attention/backends/triton_attn.py

3. vllm/envs.py

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글

1. `vllm/v1/attention/ops/triton_unified_attention.py`

2. `vllm/v1/attention/backends/triton_attn.py`

3. `vllm/envs.py`