[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.#Review#Vision-Language Models#Video Understanding#Post-Training#Linguistic Bias#Reinforcement Learning#Data Curation#Visually Grounded Reasoning2026년 4월 7일댓글 수 로딩 중