[논문리뷰] World Action Models are Zero-shot PoliciesarXiv에 게시된 'World Action Models are Zero-shot Policies' 논문에 대한 자세한 리뷰입니다.2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-trainingarXiv에 게시된 'Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold LearningarXiv에 게시된 'ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning' 논문에 대한 자세한 리뷰입니다.2026년 2월 16일댓글 수 로딩 중
[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous SourcesJianxun Cui이 arXiv에 게시한 'MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources' 논문에 대한 자세한 리뷰입니다.2026년 1월 30일댓글 수 로딩 중
[논문리뷰] A Pragmatic VLA Foundation ModelarXiv에 게시된 'A Pragmatic VLA Foundation Model' 논문에 대한 자세한 리뷰입니다.2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image SegmentationZiyang Yan이 arXiv에 게시한 'Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation' 논문에 대한 자세한 리뷰입니다.2026년 1월 20일댓글 수 로딩 중
[논문리뷰] VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image SegmentationLei Zhu이 arXiv에 게시한 'VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical ReportarXiv에 게시된 'STEP3-VL-10B Technical Report' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web AgentsarXiv에 게시된 'ExpSeek: Self-Triggered Experience Seeking for Web Agents' 논문에 대한 자세한 리뷰입니다.2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and RankingarXiv에 게시된 'Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking' 논문에 대한 자세한 리뷰입니다.2026년 1월 12일댓글 수 로딩 중
[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming AgentsarXiv에 게시된 'NitroGen: An Open Foundation Model for Generalist Gaming Agents' 논문에 대한 자세한 리뷰입니다.2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous SystemsarXiv에 게시된 'Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems' 논문에 대한 자세한 리뷰입니다.2026년 1월 1일댓글 수 로딩 중
[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI AgentsarXiv에 게시된 'MAI-UI Technical Report: Real-World Centric Foundation GUI Agents' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual SearchJierun Chen이 arXiv에 게시한 'InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in AudioarXiv에 게시된 'SAM Audio: Segment Anything in Audio' 논문에 대한 자세한 리뷰입니다.2025년 12월 24일댓글 수 로딩 중
[논문리뷰] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified AutoencodingZiwei Liu이 arXiv에 게시한 'The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding' 논문에 대한 자세한 리뷰입니다.2025년 12월 23일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and ChallengesarXiv에 게시된 'An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges' 논문에 대한 자세한 리뷰입니다.2025년 12월 22일댓글 수 로딩 중
[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-trainingDong Wang이 arXiv에 게시한 'In Pursuit of Pixel Supervision for Visual Pre-training' 논문에 대한 자세한 리뷰입니다.2025년 12월 18일댓글 수 로딩 중
[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance ReasoningHongfei Zhang이 arXiv에 게시한 'A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language NavigationarXiv에 게시된 'Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation' 논문에 대한 자세한 리뷰입니다.2025년 12월 10일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsarXiv에 게시된 'SIMA 2: A Generalist Embodied Agent for Virtual Worlds' 논문에 대한 자세한 리뷰입니다.2025년 12월 5일댓글 수 로딩 중
[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World ModelingarXiv에 게시된 'DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling' 논문에 대한 자세한 리뷰입니다.2025년 12월 5일댓글 수 로딩 중
[논문리뷰] LFM2 Technical ReportarXiv에 게시된 'LFM2 Technical Report' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic ManipulationarXiv에 게시된 'GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-ScaleYangcheng Yu이 arXiv에 게시한 'RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale' 논문에 대한 자세한 리뷰입니다.2025년 11월 27일댓글 수 로딩 중
[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term TrackingarXiv에 게시된 'SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking' 논문에 대한 자세한 리뷰입니다.2025년 11월 21일댓글 수 로딩 중
[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any GranularityarXiv에 게시된 'UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity' 논문에 대한 자세한 리뷰입니다.2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning ParadigmarXiv에 게시된 'Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context LearningarXiv에 게시된 'Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Visual Intelligence: Insights from Video PretrainingAhmad Rahimi이 arXiv에 게시한 'Rethinking Visual Intelligence: Insights from Video Pretraining' 논문에 대한 자세한 리뷰입니다.2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game AgentsarXiv에 게시된 'Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents' 논문에 대한 자세한 리뷰입니다.2025년 10월 29일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation PriorsarXiv에 게시된 'From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors' 논문에 대한 자세한 리뷰입니다.2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Model Merging with Functional Dual AnchorsarXiv에 게시된 'Model Merging with Functional Dual Anchors' 논문에 대한 자세한 리뷰입니다.2025년 10월 27일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid ActionarXiv에 게시된 'UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action' 논문에 대한 자세한 리뷰입니다.2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Chronos-2: From Univariate to Universal ForecastingarXiv에 게시된 'Chronos-2: From Univariate to Universal Forecasting' 논문에 대한 자세한 리뷰입니다.2025년 10월 21일댓글 수 로딩 중
[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLMarXiv에 게시된 'OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm TransitionarXiv에 게시된 'Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research AgentsJianshu Zhang이 arXiv에 게시한 'Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] The Role of Computing Resources in Publishing Foundation Model ResearchZhenwen Liang이 arXiv에 게시한 'The Role of Computing Resources in Publishing Foundation Model Research' 논문에 대한 자세한 리뷰입니다.2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object SegmentationSifei Liu이 arXiv에 게시한 'Temporal Prompting Matters: Rethinking Referring Video Object Segmentation' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth EstimationZekun Qi이 arXiv에 게시한 'Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic ReasoningZongze Li이 arXiv에 게시한 'AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation ModelsarXiv에 게시된 'Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across DisciplinesJiabei Xiao이 arXiv에 게시한 'SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines' 논문에 대한 자세한 리뷰입니다.2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Video models are zero-shot learners and reasonersrgeirhos이 arXiv에 게시한 'Video models are zero-shot learners and reasoners' 논문에 대한 자세한 리뷰입니다.2025년 9월 25일댓글 수 로딩 중
[논문리뷰] MAPO: Mixed Advantage Policy OptimizationXuankun Rong이 arXiv에 게시한 'MAPO: Mixed Advantage Policy Optimization' 논문에 대한 자세한 리뷰입니다.2025년 9월 24일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for AgencyhappyZYM이 arXiv에 게시한 'LIMI: Less is More for Agency' 논문에 대한 자세한 리뷰입니다.2025년 9월 23일댓글 수 로딩 중
[논문리뷰] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World ScenariosBing Su이 arXiv에 게시한 'LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios' 논문에 대한 자세한 리뷰입니다.2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language ModelsHeeseong Shin이 arXiv에 게시한 'Visual Representation Alignment for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of ExpertsXinyao Liao이 arXiv에 게시한 'UniVerse-1: Unified Audio-Video Generation via Stitching of Experts' 논문에 대한 자세한 리뷰입니다.2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?Bailiang Jian이 arXiv에 게시한 'Does DINOv3 Set a New Medical Vision Standard?' 논문에 대한 자세한 리뷰입니다.2025년 9월 9일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-SupervisionYan-Jie Zhou이 arXiv에 게시한 'M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중
[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot ControlZhaoqing Chen이 arXiv에 게시한 'EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control' 논문에 대한 자세한 리뷰입니다.2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video RecommendationsMounia Lalmas이 arXiv에 게시한 'Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations' 논문에 대한 자세한 리뷰입니다.2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?Giorgos Tolias이 arXiv에 게시한 'Processing and acquisition traces in visual encoders: What does CLIP know about your camera?' 논문에 대한 자세한 리뷰입니다.2025년 8월 15일댓글 수 로딩 중
[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic SystemsXinhao Yi이 arXiv에 게시한 'A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems' 논문에 대한 자세한 리뷰입니다.2025년 8월 12일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action ModelsKaixin Wang이 arXiv에 게시한 'villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.2025년 8월 3일댓글 수 로딩 중