#Entity-Anchored Scripting

1개의 포스트

[논문리뷰] OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

본 논문은 기존 자동화된 오디오-비주얼 QA 파이프라인의 “비디오-캡션-QA” 패러다임이 가진 근본적인 한계를 해결하고자 합니다 . 기존 연구들은 비디오를 독립적인 짧은 클립으로 분할하여 처리함으로써 시청각 모달리티 간의 결합을 파괴하고 개체 기술의 불일치를 초래합니다.

#Review #Audio-Visual Reasoning #Instruction-tuning #Entity-Anchored Scripting #Clue-Guided QA Generation #Multimodal Large Language Models (MLLMs)#Evidence Chains

2026년 6월 14일