#Video Reasoning

14개의 포스트

[논문리뷰] VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

본 연구는 기존의 'Reasoning with Video' 패러다임에서 VGM들이 높은 시각적 품질에도 불구하고 논리적 추론이나 특정 규칙 준수에서 시스템적인 한계를 보인다는 문제에 주목합니다 .

#Review #Video Generation Models #Video Reasoning #Vision-Language Models #Test-Time Optimization #LoRA #Differentiable Rewards

2026년 6월 1일

[논문리뷰] Video Models Can Reason with Verifiable Rewards

본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .

#Review #Video Generation #Reinforcement Learning #Verifiable Rewards #Video Reasoning #Diffusion Models #Flow-Matching #RLVR

2026년 5월 19일

[논문리뷰] Demystifing Video Reasoning

최근 Diffusion 기반 비디오 생성 모델이 Spatiotemporally Consistent한 시각 환경에서 비 trivial한 Reasoning 능력을 보이는 현상이 발견되었습니다.

#Review #Video Reasoning #Diffusion Models #Chain-of-Steps #Emergent Behaviors #Layer Specialization #Training-Free Ensemble

2026년 3월 17일

[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL

본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.

#Review #Agentic AI #Multimodal Models #Reinforcement Learning #Dynamic Tooling #Interaction Stability #Video Reasoning #Visual Language Models #Rollout Optimization

2026년 2월 24일

[논문리뷰] A Very Big Video Reasoning Suite

본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #Video Reasoning #Large-scale Dataset #Benchmark #Cognitive Architecture #Scaling Studies #Video Generation #Generalization #Rule-based Evaluation

2026년 2월 23일

[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.

#Review #Video Reasoning #Reinforcement Learning #Multi-Turn Reasoning #Agent System #Long Videos #Synthetic Data #Any-Horizon Reasoning #Large Language Models

2025년 12월 17일

[논문리뷰] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

본 논문은 텍스트가 풍부한 비디오에서 미세한 증거를 기반으로 하는 추론 문제, 특히 기존 단일 패스(single-pass) 비디오 QA 모델의 환각 및 오류 문제 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models #Reinforcement Learning #Visual Rumination #Text-Rich Video #Video Question Answering #Iterative Perception

2025년 11월 23일

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Multi-Video Understanding #Evaluation Benchmark #Video Perception #Video Reasoning #Sports Analytics #Autonomous Driving

2025년 11월 10일

[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning

본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models #Reinforcement Learning #Chain-of-Thought #Video Understanding #Temporal Grounding #Video Captioning #Autonomous Tool Use

2025년 10월 30일

[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

기존 비디오 벤치마크들이 일반 시나리오와 단순 추론에 집중하여 최신 대규모 멀티모달 모델(LMM) 의 고급 인지 능력을 평가하는 데 한계가 있음을 지적하며, 과학 분야에서의 복잡한 비디오 추론 능력을 종합적으로 평가할 수 있는 엄격한 벤치마크인 SciVideoBench 를 구축하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal AI #Scientific Research #Large Multimodal Models #Benchmark #Quantitative Reasoning #Domain Knowledge #Visual Grounding

2025년 10월 10일

[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Post-training #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)

2025년 10월 7일

[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.

#Review #Video Reasoning #Spatio-Temporal Grounding #Large Multimodal Models #Reinforcement Learning #Chain-of-Thought #Visual Evidence #Dataset Curation

2025년 10월 24일

[논문리뷰] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 순수 텍스트 추론이나 부정확한 증거 지역화로 인해 종종 발생시키는 근거 없는/환각적 결론의 문제를 해결하고, 다단계 비디오 추론 능력을 강화하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal Large Language Models (MLLMs)#Reinforcement Learning (RLVR)#Evidence Grounding #Multi-step Reasoning #Frame Retrieval #Dataset Construction #Progressive Learning

2025년 10월 24일

[논문리뷰] Video Reasoning without Training

본 논문은 Large Multimodal Models (LMMs) 기반 비디오 추론 시 발생하는 높은 연산 비용과 추론 과정 제어의 한계 를 해결하고자 합니다.

#Review #Video Reasoning #Large Multimodal Models (LMMs)#Inference-Time Optimization #Entropy-Based Objective #Training-Free #KV-Cache Steering #Micro-Exploration #Macro-Exploitation

2025년 10월 22일