최신 포스트

[sglang] DeepSeek-V3.2를 위한 Native FP8 Sparse MLA 최적화: SGLang DSA 백엔드 통합 분석

DeepSeek-V3.2의 추론 성능을 극대화하는 Native FP8 Sparse MLA Prefill 커널의 SGLang 통합 과정과 최적화 기법을 분석합니다.

#DeepSeek #SGLang #FP8 #MLA #CUDA #Performance-Optimization

2026년 7월 19일

[vllm] vLLM의 대규모 모델 추론을 위한 MRV2 기반 Prefill Context Parallelism(PCP) 도입

MLA 모델을 위한 MRV2 기반의 PCPManager를 도입하여 Prefill 연산을 병렬화하고, DCP와 PCP를 직교적으로 분리하여 확장성을 개선했습니다.

#vLLM #LLM #MLA #Context Parallelism #Distributed Inference

2026년 7월 19일

[ultralytics] MuSGD 최적화: Batched Newton-Schulz와 Fused Kernel로 8배 성능 향상

MuSGD 옵티마이저의 Newton-Schulz 연산을 배치화하고 PyTorch foreach 연산을 도입하여 커널 실행 오버헤드를 획기적으로 줄였습니다.

#PyTorch #Optimization #DeepLearning #CUDA #Performance

2026년 7월 19일

[openclaw] 프론트엔드 성능 최적화: 엔트리 CSS 번들 다이어트와 코드 스플리팅 전략

엔트리 CSS에서 불필요한 스타일을 제거하고 레이지 로딩 모듈로 분리하여 초기 로딩 성능을 42KB에서 36KB로 개선한 사례를 분석합니다.

#Frontend #Performance #CSS #CodeSplitting #Optimization

2026년 7월 18일

[sglang] SGLang 성능 최적화: 과도한 Prefill CUDA Graph Padding 방지로 TTFT 개선

SGLang이 과도한 Prefill CUDA Graph Padding을 방지하여 불필요한 연산을 줄이고 TTFT를 크게 개선한 최적화 과정을 분석합니다.

#SGLang #CUDA Graph #LLM Serving #Performance Optimization #Prefill #TTFT #Python #Deep Learning

2026년 7월 18일

[sglang] [SGLang] VLM 추론 성능의 비약적 향상: Cross-request ViT Batching과 Metadata 재사용 기법

SGLang에서 여러 VLM 요청의 이미지를 한 번에 처리하고, 불필요한 CPU-GPU 동기화를 제거하여 TTFT를 최대 26% 개선한 최적화 사례를 분석합니다.

#VLM #SGLang #LLM-Inference #CUDA #PyTorch #Optimization

2026년 7월 18일

[sglang] SGLang DFlash 최적화: 호스트-디바이스 동기화 제거를 통한 추론 성능 향상

DFlash의 단계별 호스트 동기화를 제거하여 CPU가 한 단계 앞서 실행되도록 최적화, 최대 13%의 토큰 처리량 향상을 달성했습니다.

#SGLang #LLM #CUDA #Optimization #Triton

2026년 7월 18일

[sglang] SM120 Blackwell에서 DeepSeek-V4 모델 서빙 최적화: FlashInfer MXFP4 MoE 도입 및 메모리 절감

SM120 GPU에서 DeepSeek-V4 모델 서빙 시 발생하던 문제를 해결하고 성능을 개선한 PR 분석.

#sglang #DeepSeek-V4 #SM120 #Blackwell #FlashInfer #MXFP4 #MoE #최적화 #성능 개선 #메모리 절감

2026년 7월 18일

[onnxruntime] ONNX Runtime: Arm64 KleidiAI 기반 FP16 GEMM 및 Convolution 최적화

Arm64 환경에서 KleidiAI를 활용한 FP16 GEMM 및 Convolution 연산 가속화 및 MLAS API 확장

#ONNX Runtime #Arm64 #KleidiAI #FP16 #Optimization

2026년 7월 17일

[onnxruntime] ONNX Runtime: AVX2 및 AVX-VNNI를 위한 2-bit 가중치 CPU 커널 최적화

AVX2/AVX-VNNI 환경에서 2-bit 가중치 MatMul 성능을 개선하여 기존 dequant+SGEMM 대비 최대 1.56배 성능 향상을 달성했습니다.

#ONNX Runtime #MLAS #AVX2 #VNNI #Optimization #MatMul

2026년 7월 17일

[onnxruntime] ONNX Runtime: fpA_intB GEMM 최적화 및 CUDA 그래프 호환성 강화

CUDA 환경에서 fpA_intB GEMM을 기본 활성화하고, 프로파일러의 병렬성 및 CUDA 그래프 안정성을 개선한 변경사항을 살펴봅니다.

#ONNXRuntime #CUDA #GEMM #Quantization #Performance

2026년 7월 17일

[sglang] SGLang Kimi K2.5/K2.7 멀티모달 인코더-DP 성능 최적화: 이미지 피처 전송 샤딩 및 배치 처리

Kimi K2.5/K2.7 모델의 멀티모달 인코더-DP 모드에서 이미지 피처 전송 및 전처리 성능을 획기적으로 개선한 PR 분석.

#SGLang #Kimi #멀티모달 #성능 최적화 #GPU #CUDA IPC #분산 학습 #FlashAttention

2026년 7월 16일

[cutlass] NVIDIA CUTLASS SM100 GEMM 커널 최적화 및 분산 환경 개선 분석

NVIDIA Blackwell(SM100) 아키텍처를 위한 GEMM 커널 튜닝과 분산 환경에서의 메모리 관리 최적화 사례를 살펴봅니다.

#NVIDIA #CUTLASS #CUDA #GEMM #Blackwell #HPC

2026년 7월 16일

[vllm] vLLM MoE 성능 최적화: FlashInfer One-Sided Combine을 활용한 메모리 복사 제거

FlashInfer의 one-sided combine 기능을 활용해 MoE 출력 텐서의 불필요한 복사 과정을 제거하고 성능을 개선한 사례를 분석합니다.

#vLLM #MoE #FlashInfer #Performance #GPU

2026년 7월 16일

[sglang] SGLang SM100 CuteDSL Prefill 최적화: State I/O의 커널 퓨전

CuteDSL prefill 커널에서 불필요한 state gather/scatter를 제거하고 커널 내에서 직접 I/O를 수행하여 성능을 극대화했습니다.

#SGLang #CUDA #Optimization #CuteDSL #SM100

2026년 7월 16일

[논문리뷰] WanSong v1.0 Technical Report

본 논문은 기존의 Autoregressive(AR) 기반 오디오 생성 모델이 가진 낮은 효율성과 장기 오디오 생성 시의 일관성 유지 문제를 해결하기 위해 고안되었습니다. 기존 연구들은 다단계(Cascaded) 파이프라인이나 AR 모델을 주로 채택하여 복잡성이 높고 효율성이 떨어지는 한계가 있습니다.

#Review #Diffusion-based Model #Music Generation #Dual-stem Modeling #Hybrid-MMDit #Reinforcement Learning #Foundation Model

2026년 7월 16일

[논문리뷰] VideoChat3: Fully Open Video MLLM for Efficient and Generalist Video Understanding

본 논문은 기존 Video MLLM이 겪는 일반화 부족, 높은 연산 비용, 그리고 폐쇄적인 연구 생태계라는 세 가지 한계를 해결하는 것을 목표로 한다. 기존 모델들은 짧은 영상에는 강점을 보이지만, 장시간 영상이나 실시간 스트리밍 환경으로의 확장이 어렵고 연산량이 기하급수적으로 증가하는 문제를 안고 있다.

#Review #Video MLLM #I3D-ViT #Adaptive Frame Resolution #Video Understanding #Open Source #Streaming Perception

2026년 7월 16일

[논문리뷰] Video = World + Event Stream

본 논문은 기존의 인터랙션 모델이 단일 응용 분야에 국한된 학습 목적을 가졌던 한계를 극복하기 위해, 비디오 데이터를 World와 Event Stream으로 분해하는 새로운 프레임워크를 제안합니다.

#Review #World-Event Decomposition #Native-Streaming Interaction #Multimodal Pretraining #End-to-End Latency #Role-play Interface #Open-vocabulary Behavior

2026년 7월 16일

[논문리뷰] VIABench: A Comprehensive Video Benchmark Collected from Blind Individuals for Visual Impairment Assistance

본 논문은 기존 비디오 이해 모델들이 일반적인 사용자 중심의 환경에만 치우쳐 있어, 실제 시각 장애인의 고유한 환경적 특성과 니즈를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #VIABench #Visual Impairment Assistance #Video Understanding #Egocentric Vision #Assistive Technology #Multimodal Evaluation

2026년 7월 16일

[논문리뷰] UniVR: Thinking in Visual Space for Unified Visual Reasoning

본 논문은 현재 AI 모델들이 추론 및 계획 능력을 주로 텍스트 공간 내에서 수행함으로써 발생하는 한계를 지적합니다. 텍스트는 추상적인 표현에 불과하여 물리적 법칙, 복잡한 동적 변화, 공간적 관계를 완벽히 담아내지 못하며, 이로 인해 모델이 실제 시각적 환경에서 일관성 있는 행동을 수행하는 데 어려움을 겪습니다 .

#Review #Visual Reasoning #Reinforcement Learning #Unified Generative Model #Long-horizon Planning #Physical Consistency #World Modeling

2026년 7월 16일