[논문리뷰] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment본 논문은 패치 수준의 증류(distillation) 과정이 정렬 능력을 크게 향상시킨다는 통찰을 바탕으로 TIPSv2 프레임워크를 제안한다. 저자들은 마스킹된 패치뿐만 아니라 모든 패치에 손실을 적용하는 iBOT++ 기법을 통해 학생 모델이 교사 모델의 표현을 더욱 강력하게 학습하도록 유도한다 .#Review#Vision-Language Pretraining#Patch-Text Alignment#iBOT++#Masked Image Modeling#Distillation#Head-only EMA2026년 4월 19일댓글 수 로딩 중