[논문리뷰] Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
링크: 논문 PDF로 바로 열기
메타데이터
저자: Jianuo Huang, Yaojie Zhang, Qituan Zhang, Hao Lin, Hanlin Xu, Linfeng Zhang
1. Key Terms & Definitions (핵심 용어 및 정의)
- Speculative Decoding: Lightweight draft model이 여러 후보 토큰을 생성하고, Target model이 이를 한 번에 병렬적으로 검증하여 추론 속도를 가속화하는 기법입니다.
- Autoregressive Drafting: 각 draft 토큰이 이전 draft 토큰들에 의존하여 순차적으로 생성되는 방식으로, 높은 draft 품질을 보장하지만 순차적 연산으로 인해 overhead가 큽니다.
- Parallel Drafting: 전체 draft 블록을 단일 forward pass로 생성하여 연산 비용을 획기적으로 줄이지만, block 내부의 인과적 의존성(causal dependency) 모델링이 약화되는 단점이 있습니다.
- Domino Head: 병렬로 생성된 draft logit에 인과적 정보를 주입하기 위해, 가벼운 Causal Encoder와 Low-Rank Correction Head를 사용하여 logit을 정제하는 핵심 모듈입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 Speculative decoding에서 draft 품질과 연산 비용 간의 trade-off 문제를 해결하는 것을 목표로 합니다. 기존의 Autoregressive Drafting은 인과 관계를 잘 모델링하여 높은 acceptance length를 달성하지만, 순차적 실행으로 인한 overhead가 병목이 됩니다 [Figure 1]. 반면 Parallel Drafting은 효율성은 높으나 인과 모델링 부족으로 draft 품질이 떨어지는 한계가 있습니다. 이를 해결하기 위해 저자들은 병렬적 효율성을 유지하면서도 인과적 정보만을 선택적으로 보완하는 새로운 프레임워크인 Domino를 제안합니다.

Figure 1 — Domino의 성능 및 latency 분석
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 병렬 backbone으로 생성된 preliminary logit을 Domino head를 통해 순차적으로 정제하는 decoupled 아키텍처를 제안합니다 [Figure 3]. Domino head는 GRU 기반의 Causal Encoder를 통해 이전 draft 토큰의 정보를 요약하고, Low-Rank Correction Head를 사용하여 전체 logit을 다시 계산하는 대신 잔차(residual) 형태의 보정값만을 연산합니다. 학습 안정성을 위해, ground-truth prefix를 사용하는 Teacher-Forced Causal Encoding과 Backbone의 성능 저하를 방지하는 Base-anchored curriculum을 도입하였습니다 [Figure 4]. Qwen3 모델 기반의 실험 결과, Domino는 기존 방식 대비 Transformers backend 환경에서 최대 **5.49×**의 end-to-end 속도 향상을 기록하였습니다 [Table 1]. 또한, SGLang 환경에서도 효율적인 처리량을 입증하였으며, 특히 인과적 보정을 통해 DFlash 대비 acceptance length를 유의미하게 개선하였습니다.

Figure 3 — Domino 아키텍처 개요

Figure 4 — 학습 전략 비교 및 성능 개선
4. Conclusion & Impact (결론 및 시사점)
본 논문은 인과적 모델링과 병렬 연산 효율성을 성공적으로 분리한 Domino 프레임워크를 통해 speculative decoding의 새로운 성능 기준을 제시합니다. 인과적 정보를 가벼운 Low-Rank 연산으로 정제하는 전략은 대규모 언어 모델의 추론 latency를 획기적으로 줄이는 동시에, 다양한 task에서 모델의 정확도를 유지하는 효과적인 방법론임을 입증했습니다. 이 연구는 자원이 제한된 환경에서 고성능 LLM을 배포하려는 산업계와, 효율적인 추론 아키텍처를 탐구하는 학계 모두에게 중요한 실무적 가이드라인을 제공합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism
- [논문리뷰] SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting
- [논문리뷰] LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding
- [논문리뷰] AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
- [sglang] 성능 최적화의 함정: DeepSeek-V3.2 정확도 붕괴를 막기 위한 SGLang의 긴급 롤백 분석
Review 의 다른글
- 이전글 [논문리뷰] Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
- 현재글 : [논문리뷰] Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding
- 다음글 [논문리뷰] Draft-OPD: On-Policy Distillation for Speculative Draft Models
댓글