[sglang] SGLang LTX-2 최적화: LoRA 병합 오버헤드 제거를 통한 추론 성능 향상LTX-2 모델의 stage-1 distilled LoRA를 베이스 모델에 사전 병합하여, 요청마다 발생하는 병합/해제 오버헤드를 제거했습니다.#SGLang#LTX-2#LoRA#Optimization#Inference2026년 6월 19일댓글 수 로딩 중
[sglang] LTX-2 모델 성능 최적화: NPU 및 GPU에서의 지연 시간 단축 분석LTX-2 모델의 E2E 지연 시간을 NPU에서 27%, GPU에서 3% 단축한 코드 변경 분석.#sglang#LTX-2#성능 최적화#NPU#GPU#RMSNorm#FlashAttention2026년 6월 19일댓글 수 로딩 중