[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified InstructionsarXiv에 게시된 'Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions' 논문에 대한 자세한 리뷰입니다.#Review#Video Understanding#Multimodal Large Language Models (MLLMs)#Instruction Tuning#Data Curation#Attribute-Structured Data#Quality Verification#Temporal Grounding#Video Captioning2026년 2월 15일댓글 수 로딩 중
[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual CaptionsarXiv에 게시된 'TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions' 논문에 대한 자세한 리뷰입니다.#Review#Video Captioning#Multi-Scene Videos#Time-Aware#Structural Captions#Audio-Visual Understanding#Large Language Models#Reinforcement Learning#OmniDCBench2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement LearningRunhao Fu이 arXiv에 게시한 'Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Multimodal Large Language Models#Reinforcement Learning#Chain-of-Thought#Video Understanding#Temporal Grounding#Video Captioning#Autonomous Tool Use2025년 10월 30일댓글 수 로딩 중
[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?arXiv에 게시된 'IF-VidCap: Can Video Caption Models Follow Instructions?' 논문에 대한 자세한 리뷰입니다.#Review#Video Captioning#Instruction Following#MLLMs#Benchmark#Controllable Generation#Multimodal Evaluation#Fine-tuning2025년 10월 22일댓글 수 로딩 중