#iBOT++

1개의 포스트

[논문리뷰] TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

본 논문은 패치 수준의 증류(distillation) 과정이 정렬 능력을 크게 향상시킨다는 통찰을 바탕으로 TIPSv2 프레임워크를 제안한다. 저자들은 마스킹된 패치뿐만 아니라 모든 패치에 손실을 적용하는 iBOT++ 기법을 통해 학생 모델이 교사 모델의 표현을 더욱 강력하게 학습하도록 유도한다 .

#Review #Vision-Language Pretraining #Patch-Text Alignment #iBOT++#Masked Image Modeling #Distillation #Head-only EMA

2026년 4월 19일