[논문리뷰] Learning Situated Awareness in the Real WorldRajiv Dhawan이 arXiv에 게시한 'Learning Situated Awareness in the Real World' 논문에 대한 자세한 리뷰입니다.2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified InstructionsarXiv에 게시된 'Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions' 논문에 대한 자세한 리뷰입니다.2026년 2월 16일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal IntelligencearXiv에 게시된 'OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence' 논문에 대한 자세한 리뷰입니다.2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge AcquisitionarXiv에 게시된 'Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition' 논문에 대한 자세한 리뷰입니다.2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and GroundingMohammadreza Salehi이 arXiv에 게시한 'Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video ReasoningShuo Zhang이 arXiv에 게시한 'Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning' 논문에 대한 자세한 리뷰입니다.2026년 1월 13일댓글 수 로딩 중
[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering TwicearXiv에 게시된 'VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice' 논문에 대한 자세한 리뷰입니다.2026년 1월 9일댓글 수 로딩 중
[논문리뷰] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video GenerationarXiv에 게시된 'Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation' 논문에 대한 자세한 리뷰입니다.2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Factorized Learning for Temporally Grounded Video-Language ModelsarXiv에 게시된 'Factorized Learning for Temporally Grounded Video-Language Models' 논문에 대한 자세한 리뷰입니다.2026년 1월 1일댓글 수 로딩 중
[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open WebKaixin Liang이 arXiv에 게시한 'Video-BrowseComp: Benchmarking Agentic Video Research on Open Web' 논문에 대한 자세한 리뷰입니다.2025년 12월 30일댓글 수 로딩 중
[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video UnderstandingJian Liu이 arXiv에 게시한 'OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding' 논문에 대한 자세한 리뷰입니다.2025년 12월 30일댓글 수 로딩 중
[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video GenerationarXiv에 게시된 'UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive AlignmentarXiv에 게시된 'Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment' 논문에 대한 자세한 리뷰입니다.2025년 12월 5일댓글 수 로딩 중
[논문리뷰] ViDiC: Video Difference CaptioningjiakaiW이 arXiv에 게시한 'ViDiC: Video Difference Captioning' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일댓글 수 로딩 중
[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and VideoKaixuan Fan이 arXiv에 게시한 'OneThinker: All-in-one Reasoning Model for Image and Video' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일댓글 수 로딩 중
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AIHumphrey Shi이 arXiv에 게시한 'PAI-Bench: A Comprehensive Benchmark For Physical AI' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Click2Graph: Interactive Panoptic Video Scene Graphs from a Single ClickarXiv에 게시된 'Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent SystemarXiv에 게시된 'SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System' 논문에 대한 자세한 리뷰입니다.2025년 11월 26일댓글 수 로딩 중
[논문리뷰] VIDEOP2R: Video Understanding from Perception to ReasoningarXiv에 게시된 'VIDEOP2R: Video Understanding from Perception to Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 11월 19일댓글 수 로딩 중
[논문리뷰] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and GenerationZeyu Wang이 arXiv에 게시한 'EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation' 논문에 대한 자세한 리뷰입니다.2025년 11월 17일댓글 수 로딩 중
[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video GeneralistarXiv에 게시된 'UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist' 논문에 대한 자세한 리뷰입니다.2025년 11월 14일댓글 수 로딩 중
[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement LearningarXiv에 게시된 'VideoSSR: Video Self-Supervised Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.2025년 11월 12일댓글 수 로딩 중
[논문리뷰] SIMS-V: Simulated Instruction-Tuning for Spatial Video UnderstandingarXiv에 게시된 'SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Cambrian-S: Towards Spatial Supersensing in VideoZihao Yang이 arXiv에 게시한 'Cambrian-S: Towards Spatial Supersensing in Video' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement LearningRunhao Fu이 arXiv에 게시한 'Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.2025년 10월 30일댓글 수 로딩 중
[논문리뷰] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary GranularityKehan Li이 arXiv에 게시한 'PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity' 논문에 대한 자세한 리뷰입니다.2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn DialoguesarXiv에 게시된 'MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues' 논문에 대한 자세한 리뷰입니다.2025년 10월 22일댓글 수 로딩 중
[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial IntelligencearXiv에 게시된 'DSI-Bench: A Benchmark for Dynamic Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.2025년 10월 22일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary ReconstructionSo Fukuda이 arXiv에 게시한 'VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction' 논문에 대한 자세한 리뷰입니다.2025년 9월 24일댓글 수 로딩 중
[논문리뷰] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training RecipeWenshuo Ma이 arXiv에 게시한 'MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe' 논문에 대한 자세한 리뷰입니다.2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing AgentsChao Zhang이 arXiv에 게시한 'Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents' 논문에 대한 자세한 리뷰입니다.2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Kwai Keye-VL 1.5 Technical ReportSXxtyz이 arXiv에 게시한 'Kwai Keye-VL 1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중
[논문리뷰] RynnEC: Bringing MLLMs into Embodied Worldjiangpinliu이 arXiv에 게시한 'RynnEC: Bringing MLLMs into Embodied World' 논문에 대한 자세한 리뷰입니다.2025년 8월 21일댓글 수 로딩 중