[논문리뷰] MedGemma 1.5 Technical Report본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .#Review#MedGemma#Multimodal Learning#Medical Imaging#Foundation Models#Volumetric Analysis#Histopathology#Clinical Reasoning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .#Review#Geometric Alignment Tax#Foundation Models#Tokenization#Manifold Fracture#Rate-Distortion Theory2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image DomainsBing Su이 arXiv에 게시한 'SciLT: Long-Tailed Classification in Scientific Image Domains' 논문에 대한 자세한 리뷰입니다.#Review#Long-Tailed Recognition#Scientific Image Domain#Foundation Models#Parameter-Efficient Fine-Tuning#Feature Fusion#Domain Shift#Representation Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting BenchmarkRui Wang이 arXiv에 게시한 'QuitoBench: A High-Quality Open Time Series Forecasting Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object InteractionsWangmeng Zuo이 arXiv에 게시한 'ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions' 논문에 대한 자세한 리뷰입니다.#Review#4D Reconstruction#Hand-Object Interaction#Foundation Models#Articulated Objects#Monocular Video#Optimization2026년 3월 31일댓글 수 로딩 중
[논문리뷰] WorldAgents: Can Foundation Image Models be Agents for 3D World Models?Matthias Nießner이 arXiv에 게시한 'WorldAgents: Can Foundation Image Models be Agents for 3D World Models?' 논문에 대한 자세한 리뷰입니다.#Review#3D World Generation#Foundation Models#Multi-Agent System#Vision-Language Models#3D Consistency#Gaussian Splatting2026년 3월 22일댓글 수 로딩 중
[논문리뷰] M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAMarXiv에 게시된 'M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM' 논문에 대한 자세한 리뷰입니다.#Review#SLAM#Streaming Reconstruction#3D Gaussian Splatting#Monocular Video#Foundation Models#Dense Matching2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViTIevgen Redko이 arXiv에 게시한 'Layer by layer, module by module: Choose both for optimal OOD probing of ViT' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Out-of-Distribution#Linear Probing#Distribution Shift#Foundation Models#Intermediate Layers#Module Analysis2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Locality-Attending Vision TransformerarXiv에 게시된 'Locality-Attending Vision Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Semantic Segmentation#Attention Mechanism#Locality Bias#Gaussian Kernel#Patch Representation#Foundation Models2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool DescriptionsAhmed E. Hassan이 arXiv에 게시한 'Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions' 논문에 대한 자세한 리뷰입니다.#Review#Model Context Protocol#AI Agents#Tool Descriptions#Software Smells#Prompt Engineering#Foundation Models#Performance Evaluation#Ablation Study2026년 2월 25일댓글 수 로딩 중
[논문리뷰] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial ConsistencyarXiv에 게시된 'LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency' 논문에 대한 자세한 리뷰입니다.#Review#3D Shape Completion#Zero-shot#Latent-Spatial Consistency#Foundation Models#Diffusion Models#Category-Agnostic#Generative Priors2026년 2월 24일댓글 수 로딩 중
[논문리뷰] VLANeXt: Recipes for Building Strong VLA ModelsarXiv에 게시된 'VLANeXt: Recipes for Building Strong VLA Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Foundation Models#Ablation Study#Generalization#LIBERO Benchmark#Time-Series Forecasting2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Large Causal Models for Temporal Causal DiscoveryDario Simionato이 arXiv에 게시한 'Large Causal Models for Temporal Causal Discovery' 논문에 대한 자세한 리뷰입니다.#Review#Causal Discovery#Temporal Models#Foundation Models#Transformer Architecture#Zero-shot Learning#Time-series Data#Scalability#Multi-dataset Pretraining2026년 2월 23일댓글 수 로딩 중
[논문리뷰] World Action Models are Zero-shot PoliciesarXiv에 게시된 'World Action Models are Zero-shot Policies' 논문에 대한 자세한 리뷰입니다.#Review#World Action Models#Video Diffusion Models#Zero-shot Generalization#Cross-embodiment Transfer#Real-time Control#Robotics#Foundation Models#Flow Matching2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-trainingarXiv에 게시된 'Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Data Darwinism#Scientific Data#Pre-training#Foundation Models#Data Processing Hierarchy#Generative Refinement#Cognitive Completion#Learnability Gap2026년 2월 16일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold LearningarXiv에 게시된 'ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous SourcesJianxun Cui이 arXiv에 게시한 'MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources' 논문에 대한 자세한 리뷰입니다.#Review#Metric Depth Estimation#Pretraining#Foundation Models#Sparse Prompts#Heterogeneous Data#Zero-Shot Learning#Multi-modal Learning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] A Pragmatic VLA Foundation ModelarXiv에 게시된 'A Pragmatic VLA Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Model#Robotics#Foundation Models#Multi-Embodiment Learning#Data Scaling#Computational Efficiency#Real-world Deployment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image SegmentationZiyang Yan이 arXiv에 게시한 'Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#Medical Image Segmentation#Foundation Models#SAM3#Fine-tuning#Prompt-driven#Domain Adaptation#Text-guided Segmentation2026년 1월 19일댓글 수 로딩 중
[논문리뷰] VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image SegmentationLei Zhu이 arXiv에 게시한 'VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#Semi-supervised Learning#Medical Image Segmentation#Vector Quantization#Consistency Learning#Feature Perturbation#Foundation Models#Dropout Replacement2026년 1월 15일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical ReportarXiv에 게시된 'STEP3-VL-10B Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web AgentsarXiv에 게시된 'ExpSeek: Self-Triggered Experience Seeking for Web Agents' 논문에 대한 자세한 리뷰입니다.#Review#Web Agents#Experience Seeking#Self-Triggered#LLM Reasoning#Entropy#Proactive Guidance#Reinforcement Learning#Foundation Models2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and RankingarXiv에 게시된 'Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Retrieval#Multimodal Ranking#Foundation Models#Embedding Models#Reranking Models#Contrastive Learning#Knowledge Distillation#Matryoshka Representation Learning#Quantization-Aware Training2026년 1월 11일댓글 수 로딩 중
[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming AgentsarXiv에 게시된 'NitroGen: An Open Foundation Model for Generalist Gaming Agents' 논문에 대한 자세한 리뷰입니다.#Review#Generalist Agents#Foundation Models#Behavior Cloning#Video Games#Action Extraction#Multi-game#Embodied AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous SystemsarXiv에 게시된 'Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal Pre-training#Autonomous Systems#Spatial Intelligence#Foundation Models#LiDAR-Camera Fusion#Self-Supervised Learning#Generative World Models#Embodied AI2025년 12월 31일댓글 수 로딩 중
[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI AgentsarXiv에 게시된 'MAI-UI Technical Report: Real-World Centric Foundation GUI Agents' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agents#Foundation Models#Reinforcement Learning#Device-Cloud Collaboration#Mobile Navigation#Tool Augmentation#User Interaction2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual SearchJierun Chen이 arXiv에 게시한 'InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in AudioarXiv에 게시된 'SAM Audio: Segment Anything in Audio' 논문에 대한 자세한 리뷰입니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified AutoencodingZiwei Liu이 arXiv에 게시한 'The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding' 논문에 대한 자세한 리뷰입니다.#Review#Unified Autoencoding#Prism Hypothesis#Semantic Representations#Pixel Representations#Frequency-Band Modulator#Foundation Models#Spectral Bias#Generative Models2025년 12월 22일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and ChallengesarXiv에 게시된 'An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-trainingDong Wang이 arXiv에 게시한 'In Pursuit of Pixel Supervision for Visual Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#Pixel Supervision#Self-Supervised Learning#Masked Autoencoders (MAE)#Visual Pre-training#Foundation Models#Representation Learning#Web-Scale Data#Computer Vision2025년 12월 17일댓글 수 로딩 중
[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance ReasoningHongfei Zhang이 arXiv에 게시한 'A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Affordance Prediction#Zero-Shot Learning#Agentic AI#Foundation Models#Multimodal Reasoning#Visual Grounding#Image Generation#Robotics2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language NavigationarXiv에 게시된 'Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Navigation#Dual-System Architecture#Foundation Models#Diffusion Policies#Robotics#Real-time Control#Generalization#Autonomous Navigation2025년 12월 9일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsarXiv에 게시된 'SIMA 2: A Generalist Embodied Agent for Virtual Worlds' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World ModelingarXiv에 게시된 'DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling' 논문에 대한 자세한 리뷰입니다.#Review#4D World Modeling#Multimodal Data#Dynamic Scenes#Metric-Scale#Bundle Adjustment#Foundation Models#Video Analysis#Data Curation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] LFM2 Technical ReportarXiv에 게시된 'LFM2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Edge AI#Foundation Models#Hybrid Architecture#Knowledge Distillation#Multimodal AI#On-device Deployment#Efficient Inference#LLM Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic ManipulationarXiv에 게시된 'GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Manipulation#Reinforcement Learning#Vision-Language-Action#Dexterous Control#Long-Horizon Tasks#Data Filtering#Data Augmentation#Foundation Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-ScaleYangcheng Yu이 arXiv에 게시한 'RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale' 논문에 대한 자세한 리뷰입니다.#Review#3D World Generation#City-Scale#Multimodal Agents#Reality Alignment#Urban Simulation#Foundation Models#Geospatial Data2025년 11월 26일댓글 수 로딩 중
[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term TrackingarXiv에 게시된 'SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking' 논문에 대한 자세한 리뷰입니다.#Review#Surgical Video Segmentation#Interactive Video Object Segmentation#Long-term Tracking#Foundation Models#Domain Adaptation#Semantic Learning#Prompt-based Segmentation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any GranularityarXiv에 게시된 'UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity' 논문에 대한 자세한 리뷰입니다.#Review#Self-Supervised Learning#Segmentation#Granularity Control#SAM#Foundation Models#Unsupervised Learning#Image Segmentation#Video Segmentation2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning ParadigmarXiv에 게시된 'Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal Reasoning#Temporal Understanding#Spatial Reasoning#Foundation Models#AI Benchmarking#In-Context Learning#Self-Consistency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context LearningarXiv에 게시된 'Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning' 논문에 대한 자세한 리뷰입니다.#Review#Tabular Data#In-Context Learning#Multi-Scale Attention#Sparse Attention#Foundation Models#Perceiver Architecture2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Visual Intelligence: Insights from Video PretrainingAhmad Rahimi이 arXiv에 게시한 'Rethinking Visual Intelligence: Insights from Video Pretraining' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Visual Intelligence#Pretraining#Foundation Models#Low-resource Learning#Inductive Biases#Visual Reasoning#Image-to-Image Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game AgentsarXiv에 게시된 'Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents' 논문에 대한 자세한 리뷰입니다.#Review#Generalist AI#Game Agents#Multimodal Learning#Foundation Models#ReAct#Sparse Thinking#Continual Pre-training#Human-Native Interaction2025년 10월 29일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation PriorsarXiv에 게시된 'From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Model Merging with Functional Dual AnchorsarXiv에 게시된 'Model Merging with Functional Dual Anchors' 논문에 대한 자세한 리뷰입니다.#Review#Model Merging#Functional Dual Anchors#Input-Representation Space#Task Vectors#Knowledge Integration#Foundation Models#Gradient Matching#Post-training Strategy2025년 10월 27일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid ActionarXiv에 게시된 'UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action' 논문에 대한 자세한 리뷰입니다.#Review#Computer Use Agents#Hybrid Action#Foundation Models#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data Generation#Tool Learning#GUI Automation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Chronos-2: From Univariate to Universal ForecastingarXiv에 게시된 'Chronos-2: From Univariate to Universal Forecasting' 논문에 대한 자세한 리뷰입니다.#Review#Time Series Forecasting#Foundation Models#Pretrained Models#Transformer#In-Context Learning#Multivariate Forecasting#Covariates#Group Attention2025년 10월 21일댓글 수 로딩 중
[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLMarXiv에 게시된 'OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM' 논문에 대한 자세한 리뷰입니다.#Review#Omni-Modal LLM#Multimodal Understanding#Vision-Audio Alignment#Temporal Reasoning#Data Curation#Foundation Models#Contrastive Learning#Rotary Time Embedding2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm TransitionarXiv에 게시된 'Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Models#Scientific Discovery#Paradigm Shift#Human-AI Collaboration#Autonomous Agents#Meta-Science#Experimental Design#Hypothesis Generation2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research AgentsJianshu Zhang이 arXiv에 게시한 'Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Web Agents#Information Aggregation#Data Synthesis#Online Exploration#Foundation Models#Multi-hop QA#Deep Research2025년 10월 20일댓글 수 로딩 중
[논문리뷰] The Role of Computing Resources in Publishing Foundation Model ResearchZhenwen Liang이 arXiv에 게시한 'The Role of Computing Resources in Publishing Foundation Model Research' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Models#Computing Resources#GPU Disparity#AI Research#Publication Bias#Resource Allocation#Research Transparency2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object SegmentationSifei Liu이 arXiv에 게시한 'Temporal Prompting Matters: Rethinking Referring Video Object Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#Referring Video Object Segmentation#Foundation Models#Prompt Engineering#Object Tracking#SAM#Video Analysis#Prompt Preference Learning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth EstimationZekun Qi이 arXiv에 게시한 'Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Monocular Depth Estimation#Foundation Models#CLIP#DINO#Language Guidance#Coarse-to-fine Learning#Feature Aggregation#3D Perception2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic ReasoningZongze Li이 arXiv에 게시한 'AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Models#Agentic Reasoning#Tool Use#Self-Evolving System#Retrieval-Augmented Generation#Computational Tools#Error Correction2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation ModelsarXiv에 게시된 'Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Training (TTT)#Foundation Models#Underparameterization#Sparse Autoencoders (SAE)#Linear Representation Hypothesis (LRH)#Specialization#Scaling Laws#In-Distribution Data2025년 10월 1일댓글 수 로딩 중
[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across DisciplinesJiabei Xiao이 arXiv에 게시한 'SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines' 논문에 대한 자세한 리뷰입니다.#Review#Scientific Reasoning#Foundation Models#Multi-modal Learning#Cross-domain Generalization#Chain-of-Thought#Reinforcement Learning#Scientific Discovery#Molecular Design2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Video models are zero-shot learners and reasonersrgeirhos이 arXiv에 게시한 'Video models are zero-shot learners and reasoners' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Zero-shot Learning#Visual Reasoning#Foundation Models#Generative AI#Perception#Manipulation#Modeling2025년 9월 25일댓글 수 로딩 중
[논문리뷰] MAPO: Mixed Advantage Policy OptimizationXuankun Rong이 arXiv에 게시한 'MAPO: Mixed Advantage Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Foundation Models#Policy Optimization#Advantage Function#Trajectory Certainty#Multimodal Reasoning#GRPO2025년 9월 24일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for AgencyhappyZYM이 arXiv에 게시한 'LIMI: Less is More for Agency' 논문에 대한 자세한 리뷰입니다.#Review#AI Agency#Data Curation#Less Is More#Agentic Intelligence#Foundation Models#Evaluation Benchmark#Efficiency Principle#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World ScenariosBing Su이 arXiv에 게시한 'LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Long-tailed Learning#Semi-Supervised Learning#Parameter-Efficient Fine-Tuning#Foundation Models#Open-World Scenarios#OOD Detection#Confidence Calibration2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language ModelsHeeseong Shin이 arXiv에 게시한 'Visual Representation Alignment for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of ExpertsXinyao Liao이 arXiv에 게시한 'UniVerse-1: Unified Audio-Video Generation via Stitching of Experts' 논문에 대한 자세한 리뷰입니다.#Review#Unified Audio-Video Generation#Stitching of Experts (SoE)#Multimodal Diffusion#Online Annotation#Cross-modal Noise Correlation#Foundation Models#Verse-Bench2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?Bailiang Jian이 arXiv에 게시한 'Does DINOv3 Set a New Medical Vision Standard?' 논문에 대한 자세한 리뷰입니다.#Review#Medical Imaging#Foundation Models#DINOv3#Self-Supervised Learning#Vision Transformer#2D/3D Classification#Segmentation#Domain Adaptation#Scaling Laws2025년 9월 9일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-SupervisionYan-Jie Zhou이 arXiv에 게시한 'M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision' 논문에 대한 자세한 리뷰입니다.#Review#Medical Image Retrieval#Self-Supervised Learning#Multimodal#Zero-shot#Foundation Models#MAE#SimDINO#Vision Transformer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot ControlZhaoqing Chen이 arXiv에 게시한 'EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Robot Control#Vision-Language-Action Models#Multimodal Pretraining#Flow Matching#Foundation Models#Generalization#Real-world Robotics2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video RecommendationsMounia Lalmas이 arXiv에 게시한 'Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Video Recommendation#Zero-Shot Learning#Content-Based Filtering#Natural Language Processing#Foundation Models2025년 8월 20일댓글 수 로딩 중
[논문리뷰] DINOv3Maxime Oquab이 arXiv에 게시한 'DINOv3' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?Giorgos Tolias이 arXiv에 게시한 'Processing and acquisition traces in visual encoders: What does CLIP know about your camera?' 논문에 대한 자세한 리뷰입니다.#Review#Visual Encoders#Metadata#Image Processing#Image Acquisition#Robustness#CLIP#Foundation Models#Distribution Shift2025년 8월 15일댓글 수 로딩 중
[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic SystemsXinhao Yi이 arXiv에 게시한 'A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems' 논문에 대한 자세한 리뷰입니다.#Review#Self-Evolving AI Agents#Lifelong Learning#Foundation Models#Multi-Agent Systems#Agent Optimization#Prompt Engineering#Tool Use#AI Safety#Survey2025년 8월 12일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action ModelsKaixin Wang이 arXiv에 게시한 'villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Latent Actions#Robot Manipulation#Pre-training#Diffusion Models#Proprioceptive Feedback#Foundation Models2025년 8월 2일댓글 수 로딩 중