[PaddleOCR] FastDeploy-Server 백엔드 추가로 VL 파이프라인 배포 옵션 확장PaddleOCR-VL 파이프라인에 fastdeploy-server 백엔드를 추가하여 프로덕션 배포 선택지를 넓힙니다.#PaddleOCR#FastDeploy#Inference#Backend#Deployment2026년 3월 26일댓글 수 로딩 중
[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.#LLM#vLLM#Inference#Optimization#Python#PyTorch2026년 3월 18일댓글 수 로딩 중
[SGLang] MoE 모델을 위한 Single Batch Overlap 기법Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다#SGLang#MoE#GPU Optimization#Inference2025년 12월 3일댓글 수 로딩 중