[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice비디오 이해 태스크에서 Chain-of-Thought (CoT) 추론의 필요성과 이점을 재평가하고, 기존 CoT 방식이 때로는 직접 답변보다 성능이 낮고 비효율적임을 지적합니다. 이를 바탕으로, 필요한 경우에만 추론을 수행하여 효율성과 정확성을 동시에 개선하는 적응형 비디오 추론 프레임워크 를 개발하는 것이 목표입니다.#Review#Video Understanding#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Adaptive Reasoning#Early Exit#Multimodal LLM#Video QA#Temporal Grounding2026년 1월 8일댓글 수 로딩 중
[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Physics Reasoning#Motion Tracking#Spatial-Temporal Grounding#Video QA#AIGC Analysis#Reinforcement Learning2025년 11월 24일댓글 수 로딩 중
[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.#Review#Experiment Video Understanding#Multimodal Large Language Models (MLLMs)#Scientific Reasoning#Benchmark#Wet-Lab Experiments#Procedural Understanding#Fine-grained Perception#Video QA2025년 10월 15일댓글 수 로딩 중