#LTX-2

2개의 포스트

[sglang] SGLang LTX-2 최적화: LoRA 병합 오버헤드 제거를 통한 추론 성능 향상

LTX-2 모델의 stage-1 distilled LoRA를 베이스 모델에 사전 병합하여, 요청마다 발생하는 병합/해제 오버헤드를 제거했습니다.

#SGLang #LTX-2 #LoRA #Optimization #Inference

2026년 6월 19일

[sglang] LTX-2 모델 성능 최적화: NPU 및 GPU에서의 지연 시간 단축 분석

LTX-2 모델의 E2E 지연 시간을 NPU에서 27%, GPU에서 3% 단축한 코드 변경 분석.

#sglang #LTX-2 #성능 최적화 #NPU #GPU #RMSNorm #FlashAttention

2026년 6월 19일