[논문리뷰] VIA-SD: Verification via Intra-Model Routing for Speculative Decoding본 논문은 기존의 Speculative Decoding이 가진 이분법적(accept 또는 full recompute) 검증 구조의 한계를 극복하고자 합니다.#Review#Speculative Decoding#Hierarchical Verification#Intra-Model Routing#KL Divergence#LLM Inference#Efficiency#Slim-Verifier2026년 6월 11일댓글 수 로딩 중
[vllm] vLLM, DFlash 도입으로 추론 속도 1.2배 향상: MRV2와 CUDAGraph의 시너지vLLM이 DFlash를 도입하여 MRV2 및 CUDAGraph와 결합, 추론 속도를 1.2배 향상시킨 기술적 분석입니다.#vLLM#DFlash#Speculative Decoding#Performance Optimization#CUDAGraph#LLM Inference2026년 6월 10일댓글 수 로딩 중
[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.#Review#Speculative Decoding#Pipeline Parallelism#LLM Inference#Feature Aggregation#Latency Hiding#Throughput2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding본 논문은 Speculative decoding에서 draft 품질과 연산 비용 간의 trade-off 문제를 해결하는 것을 목표로 합니다.#Review#Speculative Decoding#LLM Inference#Autoregressive Drafting#Parallel Drafting#Causal Modeling#Low-Rank Correction2026년 6월 1일댓글 수 로딩 중
[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.#vLLM#CUDA#Triton#Quantization#LLM Inference#W4A162026년 5월 27일댓글 수 로딩 중
[sglang] 성능 최적화의 함정: DeepSeek-V3.2 정확도 붕괴를 막기 위한 SGLang의 긴급 롤백 분석EAGLE 드래프트 모델에서 Softmax를 생략하는 최적화가 DeepSeek-V3.2 MTP 모델의 정확도를 96%나 떨어뜨린 이유와 그 해결책을 분석합니다.#SGLang#Speculative Decoding#DeepSeek-V3#Performance Optimization#LLM Inference2026년 5월 26일댓글 수 로딩 중
[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.#PyTorch#torch.compile#GPU Optimization#LLM Inference#Kernel Fusion#sglang2026년 5월 23일댓글 수 로딩 중
[논문리뷰] PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents본 연구는 대규모 외부 컨텍스트를 반복적으로 쿼리하는 LLM 에이전트 환경에서 발생하는 반복적인 오리엔테이션 작업의 비효율성 문제를 해결합니다.#Review#Long-Context LLM Agents#Context Map#Orientation Cache#Prompt Engineering#LLM Inference2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Context Memorization for Efficient Long Context Generation본 논문은 긴 Prefix를 활용하는 현대의 LLM 애플리케이션들이 겪는 성능 저하와 추론 비효율성 문제를 해결하고자 합니다 .#Review#Attention-State Memory#Long Context Generation#In-Context Learning#Retrieval-Augmented Generation#Online-Softmax Identity#Prefix Caching#LLM Inference2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Measuring Maximum Activations in Open Large Language Models본 논문은 최신 오픈 LLM 생태계에서 Activation의 동적 범위(Dynamic Range)가 단순히 파라미터 수에 비례한다는 기존의 통념을 재검토하고, 모델별 Maximum Activation Magnitude(MM)를 체계적으로 측정하여 배포 시의 위험을 파악하고자 합니다.#Review#Large Language Models#Activation Range#Quantization#Maximum Activation#LLM Inference#Residual Stream#Model Scaling2026년 5월 18일댓글 수 로딩 중
[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.#vLLM#CUDA Graph#Optimization#LLM Inference#Deep Learning2026년 5월 16일댓글 수 로딩 중
[논문리뷰] SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting본 논문은 기존 Speculative Decoding의 Drafter들이 가진 상반된 한계점을 극복하기 위해 제안되었다.#Review#LLM Inference#Speculative Decoding#Tree-based Verification#Block-Iterative Drafting#Rank-guided Expansion#Serving-time Adaptation2026년 5월 10일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: PDL 도입과 안전한 CUDA 동기화로 DSV3.2/GLM-5 가속하기PDL(Programmatic Dependency Launch) 도입과 CUDA 커널의 메모리 배리어 수정을 통해 추론 지연 시간을 개선하고 안정성을 확보했습니다.#CUDA#SGLang#Performance Optimization#LLM Inference#Triton2026년 5월 9일댓글 수 로딩 중
[SGLang] 프로젝트 전체 아키텍처 분석 - 개요 및 목차SGLang의 전체 아키텍처를 17개 계층으로 분석하고, 130개 핵심 모듈과 관련 논문을 정리한 시리즈의 개요 포스트#sglang#Architecture#LLM Inference#RadixAttention2026년 4월 9일댓글 수 로딩 중
[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.#SGLang#DeepSeek#MoE#DeepEP#LLM Inference2026년 4월 9일댓글 수 로딩 중
[vLLM] 프로젝트 전체 아키텍처 분석 - 개요 및 목차vLLM의 전체 아키텍처를 11개 계층으로 분석하고, 80+ 핵심 로직과 40+ 관련 논문을 정리한 시리즈의 개요 포스트#vllm#Architecture#LLM Inference2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference본 논문은 현대 LLM 추론에서 필수적인 긴 컨텍스트 처리 기법들이 파편화된 메모리 처리 구조로 인해 상당한 성능 저하를 일으킨다는 문제를 해결하고자 한다. 기존 LLM 최적화 방법들은 주로 개별적인 알고리즘 개선에 집중해 왔으며, 하드웨어 수준에서의 체계적인 가속 프레임워크가 부족하다는 한계가 있다.#Review#LLM Inference#Memory Processing Pipeline#Heterogeneous Systems#GPU-FPGA#Sparse Attention#Retrieval-Augmented Generation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.#Review#Sparse Attention#Hierarchical Indexing#Long Context#LLM Inference#Computational Efficiency#DeepSeek2026년 3월 30일댓글 수 로딩 중
[sglang] Dumper 디버그 유틸리티 리팩토링: 설정 구조 개선과 Non-intrusive 모드 도입SGLang의 dumper.py를 upstream main에서 동기화하며 설정 클래스 구조 개선, CLI key=value 파싱 지원, non-intrusive 모드 등을 추가한 대규모 리팩토링 분석.#SGLang#Debug#Refactoring#Python#LLM Inference2026년 3월 30일댓글 수 로딩 중
[sglang] 미사용 BatchMultimodalOutput/DecodeReq 제거로 코드베이스 정리SGLang에서 사용되지 않는 BatchMultimodalOutput과 BatchMultimodalDecodeReq 데이터클래스를 제거하여 81줄의 dead code를 정리한 클린업 분석.#SGLang#Cleanup#Dead Code#Python#LLM Inference2026년 3월 29일댓글 수 로딩 중
[논문리뷰] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey본 설문조사는 대규모 언어 모델(LLM)의 급증에 따라 발생하는 추론 시간의 효율성 및 최적 모델 선택의 필요성을 해결하고자 합니다.#Review#LLM Inference#Model Routing#Model Cascading#Efficiency Optimization#Dynamic Model Selection#Multi-LLM Systems#Cost-Performance Trade-off#Adaptive AI Systems2026년 3월 8일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[논문리뷰] LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding본 연구는 추론 가속화를 위한 투기적 디코딩(speculative decoding) 에서 드래프트 모델의 토큰 수락률(acceptance rate) 을 직접적으로 최적화하는 새로운 훈련 목표인 LK 손실(LK losses) 을 제안합니다.#Review#Speculative Decoding#LLM Inference#Acceptance Rate#KL Divergence#Total Variation Distance#Loss Functions#Draft Model Training#Adaptive Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference본 논문은 에이전틱 LLM 추론 시 KV-Cache 저장소 I/O가 컴퓨테이션보다 병목 현상을 일으키는 문제를 해결하고자 합니다.#Review#LLM Inference#KV-Cache#Storage Bottleneck#Agentic Workloads#Dual-Path Loading#PD Disaggregation#RDMA#Adaptive Scheduling2026년 2월 25일댓글 수 로딩 중
[ACE-Step-1.5] Apple Silicon 맥북에서 MLX 네이티브 백엔드로 5Hz LM 추론 속도 혁신Apple Silicon 맥북의 Metal GPU를 활용하여 5Hz LM 추론 속도를 획기적으로 개선하는 MLX 네이티브 백엔드 도입.#MLX#Apple Silicon#Metal GPU#LLM Inference#Performance Optimization#ACE-Step2026년 2월 8일댓글 수 로딩 중
[논문리뷰] TimeBill: Time-Budgeted Inference for Large Language Models시간 제약이 있는 시스템(예: 로봇 공학, 자율 주행)에서 대규모 언어 모델(LLM)의 응답 성능을 유지하면서 주어진 시간 예산 내에 추론을 완료하는 문제를 해결하는 것이 목표입니다.#Review#LLM Inference#Time Budgeting#KV Cache Eviction#Response Length Prediction#Execution Time Estimation#Real-time AI#Performance Optimization2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI본 논문은 급증하는 LLM 추론 수요로 인해 중앙 집중식 클라우드 인프라가 겪는 부담을 완화하기 위해 로컬 AI의 실행 가능성을 정량화하는 것을 목표로 합니다.#Review#Local AI#LLM Inference#Intelligence per Watt#Edge Computing#Hybrid Cloud#AI Efficiency#Hardware Benchmarking#Query Routing2025년 11월 11일댓글 수 로딩 중
[논문리뷰] PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits본 논문은 인간 행동 특성 분석을 위한 멀티모달 데이터셋의 부족 문제 를 해결하고, LLM(Large Language Model)을 통해 추론된 행동 특성을 시각 및 전기적 속성과 결합하여 체계적인 교차 모달 및 인과 관계 연구를 가능하게 하는 것을 목표로 합니다.#Review#Multimodal Dataset#LLM Inference#Behavioral Traits#Causal Representation Learning#Big Five#Multimodal AI#Causal Discovery#Human-Computer Interaction2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference전통적인 자동 스케일러가 Prefill-Decode (P/D) 분리형 아키텍처 를 사용하는 대규모 언어 모델(LLM) 추론 환경에서 비효율적이라는 문제에 직면했습니다. 이로 인해 이기종 하드웨어의 비효율적인 사용, 네트워크 병목 현상, 그리고 Prefill 및 Decode 단계 간의 불균형이 발생합니다.#Review#LLM Inference#Autoscaling#Disaggregated Architecture#Heterogeneous Hardware#Resource Management#Topology-aware Scheduling#GPU Utilization2025년 8월 28일댓글 수 로딩 중
[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.#Review#LLM Inference#Tensor Parallelism#KV Cache Optimization#Latent Attention#Memory Efficiency#Decoding Speedup#Prefill/Decode Separation#Reparameterization2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향 과 추론 비효율성 을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다.#Review#Diffusion Models#Language Models#Code Generation#Non-Autoregressive Inference#High-Speed Inference#Discrete Diffusion#LLM Inference2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Direct Multi-Token Decoding본 논문은 대규모 언어 모델(LLM)의 비효율적인 계층 활용을 해결하여 추론 속도를 가속화하는 것을 목표로 합니다.#Review#LLM Inference#Multi-token Decoding#Transformer Architecture#Layer Specialization#Cyclical Refilling#Inference Speedup#Model Scaling2025년 10월 16일댓글 수 로딩 중
[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다#CUDA Graph#torch.compile#LLM Inference#SGLang2025년 10월 12일댓글 수 로딩 중
[논문리뷰] AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders본 논문은 대규모 언어 모델(LLM) 추론 속도 향상을 위한 Speculative Decoding (SD) 과정에서 드래프트 모델과 타겟 모델 간의 불일치 문제를 해결하는 것을 목표로 합니다.#Review#Speculative Decoding#Knowledge Distillation#LLM Inference#Model Acceleration#Token Filtering#Draft Model#Acceptance Rate2025년 10월 24일댓글 수 로딩 중