#Video-SFT

1개의 포스트

[논문리뷰] Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

최근 MLLMs 는 비디오-기반 Supervised Fine-tuning (Video-SFT) 을 통해 시각적 이해 능력을 크게 발전시켜왔습니다. 그러나 Video-SFT 가 시각적 능력의 미세한 진화, 특히 공간적 이해와 시간적 이해 사이의 균형에 미치는 영향은 아직 제대로 연구되지 않았습니다.

#Review #Multimodal Large Language Models (MLLMs)#Video-SFT #Temporal Trap #Spatial Understanding #Temporal Budget #Hybrid-Frame Strategy #Negative Transfer

2026년 3월 18일