[SGLang] ViT CUDA Graph: Vision Encoder 가속SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.#sglang#ViT#CUDA Graph#Vision Encoder#Acceleration2026년 4월 14일댓글 수 로딩 중
[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.#sglang#Multimodal Cache#Vision Encoder#Image Caching2026년 4월 11일댓글 수 로딩 중
[논문리뷰] RL makes MLLMs see better than SFTarXiv에 게시된 'RL makes MLLMs see better than SFT' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Language Models#Reinforcement Learning#Supervised Finetuning#Vision Encoder#Visual Representations#Direct Preference Optimization#Preference Alignment#PIVOT2025년 10월 21일댓글 수 로딩 중
[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal LearningZirui Wang이 arXiv에 게시한 'OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Learning#Vision Encoder#Generative Pretraining#Captioning Loss#Training Efficiency#Image-Text Models#Large Language Models2025년 9월 3일댓글 수 로딩 중