[vLLM] Tree Attention: 투기적 디코딩용 트리 어텐션vLLM의 Tree Attention 백엔드를 분석한다. 투기적 디코딩의 트리 구조 토큰 검증을 위한 어텐션 마스크 생성과 Triton 기반 통합 어텐션을 살펴본다.#vllm#tree-attention#speculative-decoding#triton2026년 4월 8일댓글 수 로딩 중