#Visually Grounded Reasoning

3개의 포스트

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] Perceptual Flow Network for Visually Grounded Reasoning

본 논문은 기존 LVLM이 표준 MLE 학습 과정에서 시각적 궤적을 제어하지 못해 발생하는 언어 편향과 환각(Hallucination) 문제를 해결하고자 합니다.

#Review #Large-Vision Language Models #Visually Grounded Reasoning #Perceptual Flow #Variational Reinforcement Learning #Vicinal Geometric Shaping #Hallucination Mitigation

2026년 5월 4일

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일