#Inference

10개의 포스트

[sglang] SGLang LTX-2 최적화: LoRA 병합 오버헤드 제거를 통한 추론 성능 향상

LTX-2 모델의 stage-1 distilled LoRA를 베이스 모델에 사전 병합하여, 요청마다 발생하는 병합/해제 오버헤드를 제거했습니다.

#SGLang #LTX-2 #LoRA #Optimization #Inference

2026년 6월 19일

[vllm] vLLM의 동적 추측 디코딩(Dynamic Speculative Decoding) 도입

배치 크기에 따라 추측 디코딩의 토큰 수를 최적화하여 높은 부하에서도 효율적인 추론 성능을 유지하는 Dynamic SD 구현

#vLLM #LLM #Speculative Decoding #Performance Optimization #Inference

2026년 6월 14일

[논문리뷰] WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark

본 논문은 기존 멀티모달 벤치마크들이 모델의 실제 추론 능력을 충분히 측정하지 못하는 한계점을 극복하기 위해 WorldBench를 제안한다. 많은 기존 벤치마크가 특정 도메인에 편향되어 있거나 시각적 다양성이 부족하여, VLM의 실제 문제 해결 능력을 과대평가하게 만드는 경향이 있다.

#Review #Multimodal Reasoning #Benchmark #Vision-Language Model #Visual Diversity #Inference #Evaluation #LLM

2026년 6월 7일

[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상

Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.

#SGLang #Diffusion #Optimization #LLM #Inference

2026년 5월 25일

[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.

#vLLM #Quantization #Humming #LLM #Inference #Optimization

2026년 4월 24일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일

[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현

DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.

#SGLang #DeepSeek #LLM #Optimization #Inference

2026년 4월 5일

[PaddleOCR] FastDeploy-Server 백엔드 추가로 VL 파이프라인 배포 옵션 확장

PaddleOCR-VL 파이프라인에 fastdeploy-server 백엔드를 추가하여 프로덕션 배포 선택지를 넓힙니다.

#PaddleOCR #FastDeploy #Inference #Backend #Deployment

2026년 3월 26일

[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기

nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.

#LLM #vLLM #Inference #Optimization #Python #PyTorch

2026년 3월 18일

[SGLang] MoE 모델을 위한 Single Batch Overlap 기법

Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다

#SGLang #MoE #GPU Optimization #Inference

2025년 12월 3일