[논문리뷰] Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models최근 MLLMs 는 비디오-기반 Supervised Fine-tuning (Video-SFT) 을 통해 시각적 이해 능력을 크게 발전시켜왔습니다. 그러나 Video-SFT 가 시각적 능력의 미세한 진화, 특히 공간적 이해와 시간적 이해 사이의 균형에 미치는 영향은 아직 제대로 연구되지 않았습니다.#Review#Multimodal Large Language Models (MLLMs)#Video-SFT#Temporal Trap#Spatial Understanding#Temporal Budget#Hybrid-Frame Strategy#Negative Transfer2026년 3월 18일댓글 수 로딩 중