[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Sounding Video#Video Comprehension#Video Generation#Audio-Video Synchronization#Instruction Tuning#Diffusion Model#Encoder-Decoder2025년 12월 31일댓글 수 로딩 중