[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.#SGLang#DeepSeek#LLM#Optimization#DistributedInference2026년 6월 10일댓글 수 로딩 중
[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.#FlashInfer#DeepSeek#CUDA#LLM#Optimization2026년 5월 21일댓글 수 로딩 중
[sglang] SGLang: Triton 버전 업그레이드에 따른 MoE 성능 회귀 해결 및 설정 자동화PyTorch 2.11 업그레이드 이후 발생한 Triton 버전 호환성 문제를 해결하고, MoE 커널 설정 탐색 로직을 동적으로 개선하여 성능 회귀를 방지하는 방법.#SGLang#Triton#DeepSeek#MoE#PerformanceOptimization2026년 5월 9일댓글 수 로딩 중
[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.#vLLM#ROCm#DeepSeek#MLA#Performance Optimization#Triton2026년 5월 1일댓글 수 로딩 중
[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.#sglang#NSA#Sparse Attention#DeepSeek#Selective Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중
[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.#SGLang#DeepSeek#MoE#DeepEP#LLM Inference2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.#SGLang#DeepSeek#LLM#Optimization#Inference2026년 4월 5일댓글 수 로딩 중
[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경#SGLang#TRT-LLM#Blackwell#DeepSeek2026년 4월 2일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention최근 Long-context LLM 환경에서 Token-level sparse attention 은 필수적인 연산 효율화 기법으로 자리 잡았으나, 이를 위한 핵심 모듈인 indexer가 여전히 full-prefix scan 을 수행하며 𝒪(L²) 의 연산 병목을 유발합니다.#Review#Sparse Attention#Hierarchical Indexing#Long Context#LLM Inference#Computational Efficiency#DeepSeek2026년 3월 30일댓글 수 로딩 중
[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.#Review#Large Language Models#Sparse Attention#Reinforcement Learning#Agentic AI#Tool Use#Open-source LLM#DeepSeek2025년 12월 2일댓글 수 로딩 중
[SGLang] DeepSeek V3.2 지원 추가SGLang에 DeepSeek V3.2 모델과 Native Sparse Attention(NSA) 백엔드를 추가한다#SGLang#DeepSeek#Sparse Attention#Model Support2025년 10월 6일댓글 수 로딩 중