[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and GenerationarXiv에 게시된 'JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Sounding Video#Video Comprehension#Video Generation#Audio-Video Synchronization#Instruction Tuning#Diffusion Model#Encoder-Decoder2025년 12월 31일댓글 수 로딩 중