[sglang] SGLang Ngram Speculative Decoding 최적화: MatchState 증분 업데이트 성능 개선Ngram 기반 Speculative Decoding에서 MatchState 업데이트 시 불필요한 힙 할당을 제거하고 성능을 1.4배 향상시킨 사례를 분석합니다.#SGLang#Speculative Decoding#C++#Performance Optimization#Trie2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.#SGLang#Ngram#Speculative Decoding#Suffix Automaton#성능 최적화#LLM#Python#C++2026년 4월 6일댓글 수 로딩 중
[sglang] Ngram Corpus를 Torch cpp_extension에서 TVM FFI로 마이그레이션Speculative decoding의 ngram corpus 모듈을 torch cpp_extension에서 TVM FFI jit_kernel 기반으로 전환하여 빌드 의존성을 줄이고 JIT 컴파일 경로를 통일#SGLang#TVM FFI#JIT Kernel#Speculative Decoding2026년 4월 2일댓글 수 로딩 중
[논문리뷰] ConFu: Contemplate the Future for Better Speculative SamplingarXiv에 게시된 'ConFu: Contemplate the Future for Better Speculative Sampling' 논문에 대한 자세한 리뷰입니다.#Review#Speculative Decoding#LLM Inference Acceleration#Draft Model#Future Prediction#Contemplate Tokens#Mixture-of-Experts#Token Acceptance Rate#Speedup Ratio2026년 3월 10일댓글 수 로딩 중
[논문리뷰] LK Losses: Direct Acceptance Rate Optimization for Speculative DecodingarXiv에 게시된 'LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding' 논문에 대한 자세한 리뷰입니다.#Review#Speculative Decoding#LLM Inference#Acceptance Rate#KL Divergence#Total Variation Distance#Loss Functions#Draft Model Training#Adaptive Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] RelayGen: Intra-Generation Model Switching for Efficient ReasoningarXiv에 게시된 'RelayGen: Intra-Generation Model Switching for Efficient Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#LLM Inference Optimization#Model Switching#Efficient Reasoning#Speculative Decoding#Runtime Adaptation#Discourse-Level Cues#Latency Reduction2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-MakingarXiv에 게시된 'Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making' 논문에 대한 자세한 리뷰입니다.#Review#Medical LLM#Clinical Decision Support#Reinforcement Learning#Hallucination Suppression#Multi-task Learning#Speculative Decoding#Quantization#Clinical Inquiry2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Scaling Embeddings Outperforms Scaling Experts in Language ModelsarXiv에 게시된 'Scaling Embeddings Outperforms Scaling Experts in Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Embedding Scaling#N-gram Embedding#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Parameter Efficiency#Inference Optimization#Speculative Decoding2026년 1월 29일댓글 수 로딩 중
[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive ModelsZhijie Deng이 arXiv에 게시한 'DEER: Draft with Diffusion, Verify with Autoregressive Models' 논문에 대한 자세한 리뷰입니다.#Review#Speculative Decoding#Diffusion LLM#Autoregressive Model#Inference Acceleration#Model Alignment#Code Generation#Block Regeneration2025년 12월 17일댓글 수 로딩 중
[논문리뷰] T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and PlaygroundarXiv에 게시된 'T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground' 논문에 대한 자세한 리뷰입니다.#Review#Russian LLM#Hybrid Reasoning#Speculative Decoding#Cyrillic Tokenizer#Instruction Tuning#Reward Modeling#T-Math Benchmark2025년 12월 11일댓글 수 로딩 중
[논문리뷰] TiDAR: Think in Diffusion, Talk in AutoregressionarXiv에 게시된 'TiDAR: Think in Diffusion, Talk in Autoregression' 논문에 대한 자세한 리뷰입니다.#Review#Hybrid LLM Architecture#Diffusion-Autoregressive#Parallel Token Generation#Speculative Decoding#Structured Attention Masks#LLM Inference Acceleration#KV Cache2025년 11월 12일댓글 수 로딩 중
[논문리뷰] AdaSPEC: Selective Knowledge Distillation for Efficient Speculative DecodersarXiv에 게시된 'AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders' 논문에 대한 자세한 리뷰입니다.#Review#Speculative Decoding#Knowledge Distillation#LLM Inference#Model Acceleration#Token Filtering#Draft Model#Acceptance Rate2025년 10월 24일댓글 수 로딩 중
[논문리뷰] When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM EnsemblingarXiv에 게시된 'When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling' 논문에 대한 자세한 리뷰입니다.#Review#LLM Ensembling#Token-level Ensembling#Speculative Decoding#Tokenization Mismatch#Probability Sharpening#Long-form Generation#KV Cache Management2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image GenerationHan Shi이 arXiv에 게시한 'Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Text-to-Image Generation#Inference Acceleration#Jacobi Decoding#Denoising Diffusion Models#Speculative Decoding#Multi-token Prediction#Fine-tuning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and GenerationJianbin Zheng이 arXiv에 게시한 'Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Acceleration Framework#Speculative Decoding#Diffusion Distillation#Unified Models#Text-to-Image Generation#Image Editing#Computational Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language ModelsRahul Karthikeyan이 arXiv에 게시한 'AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Bias Mitigation#Large Language Models#Speculative Decoding#Constitutional AI#Fairness#Inference-Time Control#Indian Sociocultural Context2025년 9월 3일댓글 수 로딩 중