[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.#SGLang#Speculative Decoding#C++#Performance Optimization#Trie2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on AcceleratorsLukasz Heldt이 arXiv에 게시한 'Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators' 논문에 대한 자세한 리뷰입니다.#Review#Generative Retrieval#Constrained Decoding#Trie#Sparse Matrix#TPU#GPU#Recommendation Systems#LLM2026년 3월 1일댓글 수 로딩 중