#Vision Language

1개의 포스트

[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서

SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.

#sglang #Vision Language #CLIP #InternVL #LLaVA

2026년 4월 14일