#Cross-modal

1개의 포스트

[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Unified Vision Modeling #Video Generation #Diffusion Transformer #Supervised Fine-tuning #Cross-modal #Cross-source Tasks #Visual Sentences #LoRA

2025년 9월 29일