[SGLang] Vision-Language 모델: CLIP, InternVL, LLaVA 프로세서SGLang의 Vision-Language 모델 프로세서를 분석한다. CLIP, InternVL, LLaVA 등 주요 VLM의 이미지 전처리, 토큰 매핑, 임베딩 삽입을 코드와 함께 살펴본다.#sglang#Vision Language#CLIP#InternVL#LLaVA2026년 4월 14일댓글 수 로딩 중
[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language ModelsElisa Ricci이 arXiv에 게시한 'SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#CLIP#Debiasing#Sparse Autoencoder#Post-Hoc#Zero-Shot#Feature Disentanglement#Bias Mitigation2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Large Multimodal Models as General In-Context ClassifiersarXiv에 게시된 'Large Multimodal Models as General In-Context Classifiers' 논문에 대한 자세한 리뷰입니다.#Review#Large Multimodal Models#In-Context Learning#Image Classification#Open-World Classification#Zero-Shot Learning#Vision-Language Models#CLIP2026년 3월 5일댓글 수 로딩 중
[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary DetectorYong Li이 arXiv에 게시한 'HDINO: A Concise and Efficient Open-Vocabulary Detector' 논문에 대한 자세한 리뷰입니다.#Review#Open-Vocabulary Object Detection#Transformer#DINO#CLIP#Semantic Alignment#Hard Example Mining#Feature Fusion#Two-stage Training2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Half-Truths Break Similarity-Based RetrievalSeong Joon Oh이 arXiv에 게시한 'Half-Truths Break Similarity-Based Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#CLIP#Compositional Reasoning#Image-Text Retrieval#Fine-tuning#Hard Negatives#Unit-level Supervision#Half-Truths2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding ModelsSeong Joon Oh이 arXiv에 게시한 'Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models' 논문에 대한 자세한 리뷰입니다.#Review#Compositional Generalization#Vision-Language Models#Linear Representations#Orthogonal Representations#Neural Networks#Embedding Geometry#CLIP2026년 3월 1일댓글 수 로딩 중
[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based EmbedderZonghao Guo이 arXiv에 게시한 'ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#CLIP#LLM-based Embedder#Knowledge Distillation#Contrastive Learning#Curriculum Learning#Multimodal Alignment#Progressive Alignment2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth EstimationZekun Qi이 arXiv에 게시한 'Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Monocular Depth Estimation#Foundation Models#CLIP#DINO#Language Guidance#Coarse-to-fine Learning#Feature Aggregation#3D Perception2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person RetrievalKaicheng Yang이 arXiv에 게시한 'Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Text-based Person Retrieval#CLIP#MLLM#Data Curation#Dual-Masking#Gradient-Attention#WebPerson Dataset2025년 9월 12일댓글 수 로딩 중
[논문리뷰] CLIPSym: Delving into Symmetry Detection with CLIPRaymond A. Yeh이 arXiv에 게시한 'CLIPSym: Delving into Symmetry Detection with CLIP' 논문에 대한 자세한 리뷰입니다.#Review#Symmetry Detection#Vision-Language Models#CLIP#Equivariant Networks#Prompt Engineering#Geometric Deep Learning2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Selective Contrastive Learning for Weakly Supervised Affordance GroundingJae-Pil Heo이 arXiv에 게시한 'Selective Contrastive Learning for Weakly Supervised Affordance Grounding' 논문에 대한 자세한 리뷰입니다.#Review#Weakly Supervised Learning#Affordance Grounding#Contrastive Learning#CLIP#Part Discovery#Object Localization#DINO#Generative Models2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?Giorgos Tolias이 arXiv에 게시한 'Processing and acquisition traces in visual encoders: What does CLIP know about your camera?' 논문에 대한 자세한 리뷰입니다.#Review#Visual Encoders#Metadata#Image Processing#Image Acquisition#Robustness#CLIP#Foundation Models#Distribution Shift2025년 8월 15일댓글 수 로딩 중