[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.#Review#Multimodal Learning#Vision-Language Models#Alignment Pre-training#Text-to-Vision Mapping#Continuous Representations#Computational Efficiency#LLM2025년 8월 19일댓글 수 로딩 중