[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석#AI#LLM#최적화#성능#DeepSeek-V4#sglang#Kernel Fusion2026년 5월 30일댓글 수 로딩 중
[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.#PyTorch#torch.compile#GPU Optimization#LLM Inference#Kernel Fusion#sglang2026년 5월 23일댓글 수 로딩 중
[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석#NPU#Triton#Kernel Fusion#Optimization#Qwen3.5#Qwen3_Next#LLM2026년 5월 20일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.#SGLang#PyTorch Inductor#FP8#Kernel Fusion#LLM Optimization2026년 4월 14일댓글 수 로딩 중
[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#torch.compile#Inductor#Kernel Fusion#Compilation2026년 4월 11일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[SGLang] GDN의 kkt + solve_tril을 하나의 Triton 커널로 퓨전Gated Delta Network의 K@K^T 계산과 삼각 행렬 풀이를 단일 Triton 커널로 합쳐 HBM 왕복을 제거한다#SGLang#Triton#Kernel Fusion#Linear Attention2026년 3월 29일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Motif 2 12.7B technical report대규모 언어 모델(LLM)의 효율성 한계를 확장하고, 제한된 컴퓨팅 자원 내에서 Motif-2-12.7B 모델이 우수한 성능을 발휘할 수 있음을 입증하는 것을 목표로 합니다. 특히 아키텍처 혁신과 시스템 수준 최적화를 통해 대형 모델에 필적하는 능력을 소규모 파라미터로 구현하고자 합니다.#Review#Large Language Model#LLM Efficiency#Grouped Differential Attention#Kernel Fusion#Parallel Muon#Supervised Fine-tuning#Architectural Scaling#Instruction Following2025년 11월 12일댓글 수 로딩 중