[sglang] [VLM 성능 최적화] Qwen-VL의 자잘한 H2D 오버헤드 줄이기: 단일 대형 전송으로의 전환Qwen-VL 모델에서 발생하는 빈번한 소규모 Host-to-Device(H2D) 전송을 통합하고, 불필요한 CPU 동기화를 제거하여 멀티모달 추론 성능을 개선한 사례를 분석합니다.#VLM#Qwen-VL#CUDA#Performance-Optimization#PyTorch#SGLang2026년 5월 24일댓글 수 로딩 중
[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.#LlamaFactory#Qwen-VL#Optimization#Performance#LLM2026년 5월 3일댓글 수 로딩 중