#DNA-Train

1개의 포스트

[논문리뷰] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

본 논문은 멀티모달 대규모 언어 모델(MLLMs) 이 시각적 내용보다 언어적 선험 지식에 과도하게 의존하여 발생하는 시각적으로 근거 없는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #MLLMs #Video Understanding #Hallucinations #Counterfactual Generation #Diffusion Models #Reinforcement Learning #QA Dataset #DNA-Train

2026년 1월 4일