#최적화

38개의 포스트

[axolotl] Axolotl, NVFP4 LoRA 지원으로 MoE 모델 훈련 최적화

Axolotl이 NVFP4 MoE LoRA 지원을 추가하여 MoE 모델 훈련 효율성을 높였습니다.

#Axolotl #MoE #LoRA #NVFP4 #최적화 #딥러닝

2026년 7월 9일

[flashinfer] FlashInfer, 초저병렬성 환경에서의 CP 델타 규칙 사전 계산 최적화

FlashInfer가 초저병렬성 환경에서 CP 델타 규칙 사전 계산 성능을 개선했습니다.

#FlashInfer #LLM #최적화 #GPU #CUDA

2026년 7월 8일

[vllm] vLLM, Diffusion-Gemma 샘플러 메모리 최적화: 요청 기반 타일링으로 OOM 문제 해결

vLLM에서 Diffusion-Gemma 모델의 샘플링 과정 중 발생하는 메모리 OOM 문제를 요청 기반 타일링으로 해결한 PR을 분석합니다.

#vLLM #Diffusion-Gemma #최적화 #메모리 관리 #LLM 추론

2026년 7월 7일

[sglang] sglang, 멀티모달 모델 인코더 병렬 처리 최적화: 전체 복제본 활용으로 성능 향상

sglang PR 분석: 멀티모달 모델의 텍스트/이미지 인코더 병렬 처리 방식을 개선하여 전체 GPU 복제본을 활용하고 성능을 극대화합니다.

#sglang #병렬 처리 #최적화 #멀티모달 #딥러닝

2026년 7월 6일

[sglang] SGLang, CUDA 그래프 재실행 시 호스트-디바이스 동기화 제거로 성능 향상

SGLang에서 CUDA 그래프 재실행 시 불필요한 호스트-디바이스 동기화를 제거하여 GPU 활용률을 높이고 응답 속도를 개선했습니다.

#SGLang #CUDA #최적화 #성능 #LLM

2026년 6월 27일

[sglang] Mamba GDN의 컨볼루션 캐시 최적화: 메모리 사용량 절반으로 줄이기

Mamba 및 GDN 모델에서 컨볼루션 캐시 메모리 사용량을 절반으로 줄이는 최적화 기법을 소개합니다.

#Mamba #GDN #최적화 #메모리 관리 #SGLang

2026년 6월 18일

[sglang] SGLang, GPU 간 VAE 디코딩 최적화를 통한 이미지 생성 속도 향상

SGLang의 최신 PR은 VAE 디코딩 과정을 최적화하여 이미지 생성 속도를 크게 향상시킵니다.

#SGLang #AI #이미지 생성 #최적화 #VAE #병렬 처리 #GPU

2026년 6월 14일

[triton] Triton에서 i8 행렬 곱셈 최적화: 레지스터 압력 감소 및 성능 향상

Triton의 i8 행렬 곱셈에서 레지스터 압력을 줄이고 성능을 향상시키는 최적화 기법을 분석합니다.

#Triton #AI #최적화 #행렬 곱셈 #GPU

2026년 6월 12일

[onnxruntime] ONNX Runtime CUDA MoE: 소규모 배치 디코딩을 위한 SoftmaxTopK 라우터 최적화

ONNX Runtime CUDA MoE에서 소규모 배치 디코딩 시 SoftmaxTopK 라우터 성능을 개선하는 방법을 기술합니다.

#ONNX Runtime #CUDA #MoE #최적화 #성능

2026년 6월 12일

[onnxruntime] WebGPU FlashAttention 최적화: 커널 퓨전과 가변 시퀀스 길이 지원으로 성능 극대화

WebGPU FlashAttention의 커널 퓨전과 가변 시퀀스 길이 지원을 통한 성능 개선 분석

#WebGPU #FlashAttention #ONNX Runtime #최적화 #성능 개선 #AI 가속

2026년 6월 11일

[sglang] 실시간 RGB 전송 속도 향상을 위한 최적화 분석

sglang의 실시간 RGB 전송에서 불필요한 압축을 제거하여 성능을 22.4% 향상시킨 PR 분석

#sglang #최적화 #성능 개선 #실시간 전송 #RGB #Gzip

2026년 6월 4일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화

Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석

#Axolotl #MoE #Tiled-MLP #FSDP2 #최적화 #성능 개선 #딥러닝

2026년 5월 28일

[transformers] Apple Silicon의 MPS에서 Flash Attention 최적화: 속도와 효율성 향상

Apple Silicon의 MPS 환경에서 Flash Attention의 성능을 1.66배 향상시키는 최적화 방안을 소개합니다.

#Apple Silicon #MPS #Flash Attention #최적화 #성능 향상 #Hugging Face Transformers

2026년 5월 28일

[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상

ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.

#ONNX Runtime #CUDA #CUTLASS #FMHA #최적화 #성능

2026년 5월 27일

[vllm] vLLM, GDN Prefill 커널을 CuteDSL로 최적화하여 성능 향상

vLLM의 GDN Prefill 연산에서 새로운 CuteDSL 기반 커널을 도입하여 성능을 크게 개선했습니다.

#vLLM #GDN #CuteDSL #최적화 #성능 #LLM

2026년 5월 26일

[sglang] DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 성능 최적화

DeepseekV4 모델의 입력 레이어 정규화와 FP8 양자화를 융합하여 GPU 연산 효율성을 높였습니다.

#AI #딥러닝 #최적화 #FP8 #GPU

2026년 5월 12일

[flashinfer] FlashInfer, 동적 토큰 페이지 커널 도입으로 TRTLLM-GEN GQA 성능 최적화

FlashInfer가 TRTLLM-GEN GQA 커널에 동적 토큰 페이지 기능을 도입하여 LLM 추론 성능을 향상시켰습니다.

#FlashInfer #LLM #최적화 #GQA #TRTLLM-GEN #성능

2026년 5월 11일

[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트

FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.

#FlashInfer #GEMM #MoE #FP8 #CUDA #최적화

2026년 5월 8일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거

FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.

#FlashInfer #TRT-LLM #CUDA #최적화 #성능 #LLM

2026년 5월 6일

[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화

HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석

#AI #딥러닝 #최적화 #Triton #HunyuanVideo #VAE

2026년 5월 2일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용

AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.

#SGLang #MoE #AMD GPU #최적화 #성능 #AIter #GPU Kernel

2026년 4월 25일

[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화

FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.

#FlashInfer #CuTe DSL #FMHA #Prefill #최적화 #성능 개선 #딥러닝 #LLM

2026년 4월 24일

[ACE-Step-1.5] ACE-Step에 파동대역 보정(DCW) 샘플러 훅 추가: SNR-t 편향 개선

ACE-Step에 DCW 샘플러 훅을 통합하여 확산 모델의 SNR-t 편향을 개선하고 음질을 향상시킵니다.

#AI #음악 생성 #확산 모델 #최적화 #ACE-Step

2026년 4월 23일

[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상

vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.

#vLLM #Gemma4 #Triton #최적화 #성능 향상 #AI 모델 서빙

2026년 4월 19일

[vllm] vLLM 멀티모달 스케줄러 오버헤드 최적화: Python List 캐싱으로 27% 성능 향상

vLLM 멀티모달 워크로드에서 스케줄러 오버헤드를 줄여 27% 처리량 향상을 달성한 최적화 분석.

#vLLM #최적화 #멀티모달 #성능 #Python #PyTorch

2026년 4월 18일

[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속

vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.

#vLLM #Arm CPU #BF16 #GELU #최적화 #성능 개선 #LUT

2026년 4월 16일

[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결

vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.

#vLLM #CUDA Graph #Qwen3-VL #최적화 #성능 향상 #LLM

2026년 4월 14일

[triton] Triton 테스트 속도 혁신: Python 루프에서 벡터화된 NumPy로의 전환

Triton의 느린 테스트를 Python 루프에서 벡터화된 NumPy로 전환하여 200초에서 3.3초로 단축한 PR 분석

#Triton #최적화 #테스트 #NumPy #성능

2026년 4월 14일

[vllm] vLLM Nemotron Nano VL: Pixel Shuffle 최적화를 통한 성능 향상 분석

vLLM Nemotron Nano VL 모델에서 Pixel Shuffle 연산을 최적화하여 성능을 개선한 PR을 분석합니다.

#vLLM #Nemotron Nano VL #Pixel Shuffle #최적화 #성능 개선 #PyTorch

2026년 4월 10일

[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석

sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.

#sglang #LLM #AMD GPU #벤치마크 #최적화 #CI/CD

2026년 4월 9일

[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석

llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.

#llm-compressor #Gemma4 #MoE #양자화 #최적화 #기술 블로그

2026년 4월 7일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[sglang] SGLang 스케줄러: 사전 생성 전용 배치 병합 시 is_prefill_only 플래그 로직 개선

사전 생성 전용 배치와 일반 생성 배치가 병합될 때 발생하는 is_prefill_only 플래그 오류를 수정하여 메모리 누수를 방지합니다.

#SGLang #스케줄러 #최적화 #메모리 누수 #배치 처리

2026년 4월 2일

[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화

SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.

#SGLang #FlashInfer #TRT-LLM #MoE #FP8 #최적화 #성능 #MiniMax-M2.5

2026년 4월 2일

[sglang] SGLang, Helios 모델 통합으로 실시간 장편 비디오 생성의 새로운 지평을 열다

SGLang이 Helios 모델을 통합하여 실시간 장편 비디오 생성 성능을 혁신적으로 개선했습니다.

#SGLang #Helios #비디오 생성 #AI 모델 #최적화

2026년 3월 4일