[논문리뷰] LoMo: Local Modality Substitution for Deeper Vision-Language Fusion본 논문은 최신 VLM들이 텍스트 질문을 그에 대응하는 렌더링된 이미지로 교체했을 때 발생하는 성능 저하 문제, 즉 carrier sensitivity 문제를 해결하고자 합니다.#Review#Vision-Language Models#Modality Gap#Carrier Sensitivity#Local Modality Substitution#Supervised Fine-Tuning#Cross-modal Alignment2026년 5월 28일댓글 수 로딩 중