[논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains본 논문은 기존 자동화된 오디오-비주얼 QA 파이프라인의 “비디오-캡션-QA” 패러다임이 가진 근본적인 한계를 해결하고자 합니다 . 기존 연구들은 비디오를 독립적인 짧은 클립으로 분할하여 처리함으로써 시청각 모달리티 간의 결합을 파괴하고 개체 기술의 불일치를 초래합니다.#Review#Audio-Visual Reasoning#Instruction-tuning#Entity-Anchored Scripting#Clue-Guided QA Generation#Multimodal Large Language Models (MLLMs)#Evidence Chains2026년 6월 14일댓글 수 로딩 중