#Linguistic Bias

1개의 포스트

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일