[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .#Review#Video-LLMs#Token Compression#Vision Encoder#Time-to-First-Token#Inference Efficiency#Training-free2026년 5월 28일댓글 수 로딩 중
[논문리뷰] LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs본 연구는 장편 비디오 이해를 위해 Video LLMs를 확장할 때 발생하는 고질적인 계산 복잡도와 효율성 병목 문제를 해결하는 데 집중합니다.#Review#Video LLMs#Vision Encoder#Token Compression#Compressed Token Distillation#Long-form Video Understanding#Spatio-temporal Modeling2026년 5월 18일댓글 수 로딩 중
[SGLang] ViT CUDA Graph: Vision Encoder 가속SGLang의 ViT CUDA Graph Runner를 분석한다. Vision Transformer의 반복 실행을 CUDA Graph로 캡처하여 인코딩 속도를 높이는 전략을 코드와 함께 살펴본다.#sglang#ViT#CUDA Graph#Vision Encoder#Acceleration2026년 4월 14일댓글 수 로딩 중
[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.#sglang#Multimodal Cache#Vision Encoder#Image Caching2026년 4월 11일댓글 수 로딩 중
[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal LearningOpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.#Review#Multimodal Learning#Vision Encoder#Generative Pretraining#Captioning Loss#Training Efficiency#Image-Text Models#Large Language Models2025년 9월 3일댓글 수 로딩 중
[논문리뷰] RL makes MLLMs see better than SFT본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.#Review#Multimodal Language Models#Reinforcement Learning#Supervised Finetuning#Vision Encoder#Visual Representations#Direct Preference Optimization#Preference Alignment#PIVOT2025년 10월 21일댓글 수 로딩 중