#Foundation Models

86개의 포스트

[논문리뷰] Video Generation Models are General-Purpose Vision Learners

본 논문은 컴퓨터 비전 분야가 여전히 개별 과제에 특화된 모델(Specialized Model) 단계에 머물러 있는 문제를 해결하고자 합니다 .

#Review #Video Generation #Foundation Models #Generalist Vision Intelligence #Diffusion Models #Spatiotemporal Priors #Perception Task-Agnostic #Synthetic Data

2026년 7월 12일

[논문리뷰] Scalable Visual Pretraining for Language Intelligence

본 연구는 대규모 언어 모델이 문서의 시각적 요소를 평문으로 변환할 때 발생하는 정보 손실을 해결하기 위해 시각적 문서 자체를 직접 학습하는 VP를 제안한다.

#Review #Visual Pretraining #Foundation Models #Multimodal Learning #Scientific Reasoning #Representation Alignment #Autoregressive Training

2026년 7월 12일

[논문리뷰] Vision as Unified Multimodal Generation

본 논문은 기존 컴퓨터 비전 분야가 각 작업(task)별로 최적화된 아키텍처와 독립적인 손실 함수(loss function)를 사용하는 파편화된 시스템에 의존하고 있다는 문제점을 지적합니다. 이로 인해 다양한 시각적 감독 신호를 통합, 재사용 및 결합하는 데 구조적인 한계가 발생합니다.

#Review #Unified Multimodal Generation #Computer Vision #Foundation Models #Instruction Tuning #Dense Prediction #SenseNova-Vision #Multimodal Learning

2026년 7월 7일

[논문리뷰] PixCon: Clean-Positive Contrastive Learning for Foundation-Model Semi-Supervised Segmentation

기존의 SSSS 연구들은 주로 Pseudo-label의 신뢰성을 판단하기 위한 confidence filtering 전략에 의존해 왔습니다. 그러나 DINOv2와 같은 강력한 foundation-model backbone이 등장하면서, 단순히 threshold를 높이는 것만으로는 성능 향상에 한계가 있음이 드러났습니다.

#Review #Semi-supervised Semantic Segmentation #Foundation Models #Contrastive Learning #Pseudo-labeling #DINOv2 #Embedding Space #Consistency Regularization

2026년 7월 6일

[논문리뷰] One Scene, Two Depths: Probing Geometric Ambiguity in Monocular Foundation Models

본 논문은 현대의 monocular depth foundation models가 투명한 장면(transparent scenes)과 같은 다층 기하학적 구조를 단일 scalar depth로만 표현해야 하는 근본적인 한계(single-layer constraint)를 해결하고자 한다 .

#Review #Monocular Depth Estimation #Geometric Ambiguity #Laplacian Visual Prompting #Foundation Models #Ordinal Benchmark #Layered Geometry

2026년 6월 29일

[논문리뷰] How Post-Training Shapes Biological Reasoning Models

본 논문은 생물학적 추론 모델 개발에서 Post-Training 과정이 모델의 일반화 능력과 과잉 최적화(Over-specialization)에 미치는 영향을 체계적으로 규명한다.

#Review #Biological Reasoning #Post-Training #Supervised Fine-Tuning #Reinforcement Learning #Generalization #Foundation Models

2026년 6월 25일

[논문리뷰] AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

본 논문은 Multimodal Foundation Models (MFMs)가 물리적 세계의 3D 공간을 추론하는 데 있어 근본적인 한계를 지니고 있음을 지적합니다.

#Review #AlloSpatial #Spatial Reasoning #Allocentric Cognitive Mapping #World2Mind #Spatial Reasoning Harness #Foundation Models #Reinforcement Learning

2026년 6월 14일

[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.

#Review #Target Viewpoint Reproduction #TVRBench #Active Exploration #Foundation Models #Spatial Intelligence #Embodied AI #GRPO #SFT

2026년 6월 1일

[논문리뷰] One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation

본 연구는 기존 세포 인스턴스 분할 모델들이 학습 데이터에 종속되어 Out-of-Distribution (OOD) 세포 유형에서 성능이 급격히 저하되는 문제를 해결하고자 합니다.

#Review #Cell Instance Segmentation #Foundation Models #Group Prompting #Chain-of-Prompts #Training-free #Histopathology #SAM

2026년 5월 31일

[논문리뷰] Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

본 논문은 기존의 VOT 방식들이 task-specific supervised training에 의존하여 unseen 환경에 대한 일반화 능력이 제한적이라는 점을 지적합니다.

#Review #Visual Object Tracking #Foundation Models #SAM 2 #Nonlinear Motion #Motion Predictor #Error Detection-Recovery

2026년 5월 21일

[논문리뷰] Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

본 연구는 Recursive Self-Improvement의 일환으로 LLM 에이전트가 기존 Transformer 패러다임을 넘어선 차세대 foundation model을 자율적으로 설계할 수 있는지 탐구합니다.

#Review #Neural Architecture Search #Foundation Models #LLM Agents #Recursive Self-Improvement #Hybrid Architectures #AIRS-Bench

2026년 5월 17일

[논문리뷰] TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

본 논문은 LLM이 자연어 처리에 성공한 것과 달리, tabular 데이터를 위한 통합된 representation 패러다임이 부재하다는 점을 해결하고자 합니다 .

#Review #Tabular Embedding #Contrastive Learning #Tabular Understanding #Foundation Models #Representation Learning #Tabular Retrieval

2026년 5월 7일

[논문리뷰] Audio-Visual Intelligence in Large Foundation Models

본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.

#Review #Audio-Visual Intelligence #Foundation Models #Multimodal Fusion #Embodied AI #Cross-modal Generation

2026년 5월 7일

[논문리뷰] OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

본 논문은 해양 데이터의 파편화와 도메인 특화 데이터의 부재로 인해 발생하는 해양 인공지능(Marine AI)의 성능 병목 현상을 해결하고자 한다.

#Review #Multimodal Large Language Models #Marine Science #Foundation Models #Data Corpus #Instruction Tuning #Sonar Detection

2026년 5월 4일

[논문리뷰] NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results

본 챌린지에서는 총 2,000개의 다양한 비디오로 구성된 새로운 데이터셋을 활용하였으며, 7개의 최종 팀이 제안한 모델들을 평가했습니다. 우승 팀인 iLearn은 InternVideo2 백본을 공유하고 두 개의 상호 보완적인 디코더를 앙상블(Ensemble)하는 다중 전문가 프레임워크를 제안했습니다 .

#Review #Video Saliency Prediction #Crowdsourcing #Foundation Models #Spatiotemporal Modeling #NTIRE 2026 Challenge

2026년 4월 19일

[논문리뷰] MedGemma 1.5 Technical Report

본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .

#Review #MedGemma #Multimodal Learning #Medical Imaging #Foundation Models #Volumetric Analysis #Histopathology #Clinical Reasoning

2026년 4월 7일

[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .

#Review #Geometric Alignment Tax #Foundation Models #Tokenization #Manifold Fracture #Rate-Distortion Theory

2026년 4월 6일

[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image Domains

본 논문은 자연 이미지 도메인과 달리 도메인 이동(Domain Shift)과 데이터 분포의 심각한 불균형이 존재하는 과학적 이미지 도메인에서 파운데이션 모델의 미세 조정이 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Long-Tailed Recognition #Scientific Image Domain #Foundation Models #Parameter-Efficient Fine-Tuning #Feature Fusion #Domain Shift #Representation Learning

2026년 4월 6일

[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.

#Review #Time Series Forecasting #Benchmark #TSF Regime #Foundation Models #Deep Learning #Data Scaling #Forecastability

2026년 4월 1일

[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

기존의 Hand-Object Interaction (HOI) 재구성 연구는 주로 강체(Rigid Object)만을 다루거나, 관절형 물체의 4D 재구성을 위해 사전에 스캔된 3D 템플릿 혹은 다중 시점(Multi-view) 비디오와 같은 제약적인 입력을 필요로 했습니다.

#Review #4D Reconstruction #Hand-Object Interaction #Foundation Models #Articulated Objects #Monocular Video #Optimization

2026년 3월 31일

[논문리뷰] WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

최근 2D Foundation Models는 Text-to-Image Diffusion을 통해 탁월한 High-fidelity 이미지 생성 능력과 깊은 Semantic Understanding을 보여주었습니다.

#Review #3D World Generation #Foundation Models #Multi-Agent System #Vision-Language Models #3D Consistency #Gaussian Splatting

2026년 3월 22일

[논문리뷰] M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM

uncalibrated monocular video로부터 streaming reconstruction을 수행하는 것은 고정밀 pose estimation과 동적 환경에서의 계산적으로 효율적인 online refinement가 모두 필요하므로 여전히 challenging합니다.

#Review #SLAM #Streaming Reconstruction #3D Gaussian Splatting #Monocular Video #Foundation Models #Dense Matching

2026년 3월 17일

[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT

사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.

#Review #Vision Transformer #Out-of-Distribution #Linear Probing #Distribution Shift #Foundation Models #Intermediate Layers #Module Analysis

2026년 3월 8일

[논문리뷰] Locality-Attending Vision Transformer

본 논문은 이미지 분류 훈련 후 Vision Transformer (ViT)의 dense prediction 성능, 특히 segmentation 성능을 향상 시키는 것을 목표로 합니다.

#Review #Vision Transformer #Semantic Segmentation #Attention Mechanism #Locality Bias #Gaussian Kernel #Patch Representation #Foundation Models

2026년 3월 5일

[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.

#Review #Model Context Protocol #AI Agents #Tool Descriptions #Software Smells #Prompt Engineering #Foundation Models #Performance Evaluation #Ablation Study

2026년 2월 25일

[논문리뷰] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

기존 3D 형상 완성 방법론들이 다양한 부분 관측 패턴, 범주 간 일반화, 그리고 쌍을 이루는 데이터셋 의존성 및 불완전한 렌더링 가정에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #3D Shape Completion #Zero-shot #Latent-Spatial Consistency #Foundation Models #Diffusion Models #Category-Agnostic #Generative Priors

2026년 2월 24일

[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models

파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Imitation Learning #Foundation Models #Ablation Study #Generalization #LIBERO Benchmark #Time-Series Forecasting

2026년 2월 23일

[논문리뷰] Large Causal Models for Temporal Causal Discovery

본 논문은 시계열 데이터에 대한 인과 관계 탐색(Causal Discovery, CD)에서 데이터셋별 모델 학습 패러다임의 한계 를 극복하고자 합니다.

#Review #Causal Discovery #Temporal Models #Foundation Models #Transformer Architecture #Zero-shot Learning #Time-series Data #Scalability #Multi-dataset Pretraining

2026년 2월 23일

[논문리뷰] World Action Models are Zero-shot Policies

본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.

#Review #World Action Models #Video Diffusion Models #Zero-shot Generalization #Cross-embodiment Transfer #Real-time Control #Robotics #Foundation Models #Flow Matching

2026년 2월 18일

[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

본 논문은 파운데이션 모델 학습 데이터 처리의 체계적인 프레임워크 부재 문제를 해결하고자 합니다.

#Review #Data Darwinism #Scientific Data #Pre-training #Foundation Models #Data Processing Hierarchy #Generative Refinement #Cognitive Completion #Learnability Gap

2026년 2월 16일

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA)#Foundation Models #Action Manifold Learning #Diffusion Transformers #Data Curation #Embodied AI

2026년 2월 15일

[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

이 논문은 이질적인 센서 노이즈, 카메라 의존적 편향, 그리고 노이즈가 많은 교차 소스 3D 데이터의 모호성으로 인해 확장이 어려웠던 Metric Depth Estimation 의 문제를 해결하고자 합니다.

#Review #Metric Depth Estimation #Pretraining #Foundation Models #Sparse Prompts #Heterogeneous Data #Zero-Shot Learning #Multi-modal Learning

2026년 1월 29일

[논문리뷰] A Pragmatic VLA Foundation Model

이 논문은 로봇 조작을 위한 Vision-Language-Action (VLA) 파운데이션 모델 이 다양한 작업과 플랫폼에서 비용 효율적으로 일반화되는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Model #Robotics #Foundation Models #Multi-Embodiment Learning #Data Scaling #Computational Efficiency #Real-world Deployment

2026년 1월 27일

[논문리뷰] Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

본 논문은 일반 자연 이미지에 대해 강력한 성능을 보인 SAM3 와 같은 프롬프트 기반 분할 파운데이션 모델이 심각한 도메인 시프트, 특권적인 공간 프롬프트의 부재, 복잡한 해부학적 및 체적 구조 추론의 필요성으로 인해 의료 영상 분할에 직접 적용하기 어려운 문제를 해결하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Foundation Models #SAM3 #Fine-tuning #Prompt-driven #Domain Adaptation #Text-guided Segmentation

2026년 1월 19일

[논문리뷰] VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

본 논문은 반지도 학습 기반 의료 영상 분할에서 기존 dropout 방식의 불안정하고 튜닝이 어려운 특성 교란 문제를 해결하고자 합니다.

#Review #Semi-supervised Learning #Medical Image Segmentation #Vector Quantization #Consistency Learning #Feature Perturbation #Foundation Models #Dropout Replacement

2026년 1월 15일

[논문리뷰] STEP3-VL-10B Technical Report

본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.

#Review #Multimodal Large Language Models #Vision-Language Models #Reinforcement Learning #Parallel Coordinated Reasoning #Model Efficiency #Foundation Models #Pre-training #Post-training

2026년 1월 15일

[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web Agents

기존 웹 에이전트들이 경험을 수동적으로 전역 컨텍스트로 주입하여 동적으로 변하는 환경에서 비효율적인 탐색과 신뢰할 수 없는 응답을 생성하는 문제를 해결하고자 합니다.

#Review #Web Agents #Experience Seeking #Self-Triggered #LLM Reasoning #Entropy #Proactive Guidance #Reinforcement Learning #Foundation Models

2026년 1월 14일

[논문리뷰] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

본 논문은 텍스트, 이미지, 문서 이미지, 비디오 등 다양한 양식의 데이터를 통합 하여 고정밀 멀티모달 검색을 수행하는 Qwen3-VL-Embedding 및 Qwen3-VL-Reranker 모델 시리즈를 소개합니다.

#Review #Multimodal Retrieval #Multimodal Ranking #Foundation Models #Embedding Models #Reranking Models #Contrastive Learning #Knowledge Distillation #Matryoshka Representation Learning #Quantization-Aware Training

2026년 1월 11일

[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents

논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.

#Review #Generalist Agents #Foundation Models #Behavior Cloning #Video Games #Action Extraction #Multi-game #Embodied AI

2026년 1월 6일

[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems

본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.

#Review #Multi-modal Pre-training #Autonomous Systems #Spatial Intelligence #Foundation Models #LiDAR-Camera Fusion #Self-Supervised Learning #Generative World Models #Embodied AI

2025년 12월 31일

[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.

#Review #GUI Agents #Foundation Models #Reinforcement Learning #Device-Cloud Collaboration #Mobile Navigation #Tool Augmentation #User Interaction

2025년 12월 28일

[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Visual Search #Foundation Models #Multi-agent Systems #Reinforcement Learning #Benchmarking #Visual Reasoning

2025년 12월 28일

[논문리뷰] SAM Audio: Segment Anything in Audio

본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Audio Source Separation #Foundation Models #Multimodal Prompting #Diffusion Transformers #Flow Matching #Self-Supervised Learning #Reference-Free Evaluation #Audio-Visual Learning

2025년 12월 23일

[논문리뷰] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

본 논문은 최신 파운데이션 모델에서 추상적 의미(semantic abstraction)와 시각적 충실도(pixel-level fidelity) 사이의 근본적인 불일치를 해결하는 것을 목표로 합니다.

#Review #Unified Autoencoding #Prism Hypothesis #Semantic Representations #Pixel Representations #Frequency-Band Modulator #Foundation Models #Spectral Bias #Generative Models

2025년 12월 22일

[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Robotics #Foundation Models #Multi-modal Learning #Reinforcement Learning #Sim-to-Real Transfer #Human-Robot Interaction

2025년 12월 21일

[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training

본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.

#Review #Pixel Supervision #Self-Supervised Learning #Masked Autoencoders (MAE)#Visual Pre-training #Foundation Models #Representation Learning #Web-Scale Data #Computer Vision

2025년 12월 17일

[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

이 논문은 고수준 추론과 저수준 그라운딩이 긴밀하게 결합된 기존 end-to-end 어포던스 예측 모델들이 새로운 객체나 복잡한 지시에 대한 일반화에 어려움을 겪는 한계를 해결하고자 합니다.

#Review #Affordance Prediction #Zero-Shot Learning #Agentic AI #Foundation Models #Multimodal Reasoning #Visual Grounding #Image Generation #Robotics

2025년 12월 16일

[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.

#Review #Vision-Language Navigation #Dual-System Architecture #Foundation Models #Diffusion Policies #Robotics #Real-time Control #Generalization #Autonomous Navigation

2025년 12월 9일

[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.

#Review #Embodied AI #Generalist Agent #Virtual Worlds #Foundation Models #Gemini #Self-Improvement #Dialogue #Reasoning #Reinforcement Learning

2025년 12월 4일

[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.

#Review #4D World Modeling #Multimodal Data #Dynamic Scenes #Metric-Scale #Bundle Adjustment #Foundation Models #Video Analysis #Data Curation

2025년 12월 4일

[논문리뷰] LFM2 Technical Report

본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.

#Review #Edge AI #Foundation Models #Hybrid Architecture #Knowledge Distillation #Multimodal AI #On-device Deployment #Efficient Inference #LLM Optimization

2025년 12월 1일

[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Robotic Manipulation #Reinforcement Learning #Vision-Language-Action #Dexterous Control #Long-Horizon Tasks #Data Filtering #Data Augmentation #Foundation Models

2025년 12월 1일

[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #3D World Generation #City-Scale #Multimodal Agents #Reality Alignment #Urban Simulation #Foundation Models #Geospatial Data

2025년 11월 26일

[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

수술 비디오 세분화는 컴퓨터 지원 수술에 필수적이지만, 기존 SAM2 와 같은 iVOS 모델은 도메인 격차, 제한된 장기 추적 능력, 다중 소스 데이터셋 간의 주석 불일치 문제에 직면해 있습니다.

#Review #Surgical Video Segmentation #Interactive Video Object Segmentation #Long-term Tracking #Foundation Models #Domain Adaptation #Semantic Learning #Prompt-based Segmentation

2025년 11월 20일

[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #Segmentation #Granularity Control #SAM #Foundation Models #Unsupervised Learning #Image Segmentation #Video Segmentation

2025년 11월 17일

[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

기존의 'Thinking with Text' 및 'Thinking with Images' 패러다임이 가진 정적 이미지의 한계와 모달리티 분리 문제를 극복하고자 합니다.

#Review #Video Generation #Multimodal Reasoning #Temporal Understanding #Spatial Reasoning #Foundation Models #AI Benchmarking #In-Context Learning #Self-Consistency

2025년 11월 9일

[논문리뷰] Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning

본 논문은 기존의 테이블 인컨텍스트 학습(ICL) 모델들이 직면한 단일 스케일 피처 처리, 테이블 너비에 대한 Quadratic Scaling 의 조밀한 어텐션, 그리고 순차적 컴포넌트 처리의 한계를 해결하는 것을 목표로 합니다.

#Review #Tabular Data #In-Context Learning #Multi-Scale Attention #Sparse Attention #Foundation Models #Perceiver Architecture

2025년 11월 9일

[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.

#Review #Scientific Reasoning #Foundation Models #Multi-modal Learning #Cross-domain Generalization #Chain-of-Thought #Reinforcement Learning #Scientific Discovery #Molecular Design

2025년 9월 26일

[논문리뷰] Video models are zero-shot learners and reasoners

본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.

#Review #Video Models #Zero-shot Learning #Visual Reasoning #Foundation Models #Generative AI #Perception #Manipulation #Modeling

2025년 9월 25일

[논문리뷰] MAPO: Mixed Advantage Policy Optimization

본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.

#Review #Reinforcement Learning #Foundation Models #Policy Optimization #Advantage Function #Trajectory Certainty #Multimodal Reasoning #GRPO

2025년 9월 24일

[논문리뷰] LIMI: Less is More for Agency

현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.

#Review #AI Agency #Data Curation #Less Is More #Agentic Intelligence #Foundation Models #Evaluation Benchmark #Efficiency Principle #Large Language Models

2025년 9월 23일

[논문리뷰] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

본 논문은 Long-Tailed Semi-Supervised Learning (LTSSL)에서 발생하는 기존 문제점들, 즉 모델의 과신(overconfidence) 과 저품질 의사 레이블(pseudo-labels) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-tailed Learning #Semi-Supervised Learning #Parameter-Efficient Fine-Tuning #Foundation Models #Open-World Scenarios #OOD Detection #Confidence Calibration

2025년 9월 15일

[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models

본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Representation Alignment #Foundation Models #Regularization #Fine-grained Visual Understanding #Spatial Reasoning #Object Counting #Vision-Language Models

2025년 9월 10일

[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.

#Review #Unified Audio-Video Generation #Stitching of Experts (SoE)#Multimodal Diffusion #Online Annotation #Cross-modal Noise Correlation #Foundation Models #Verse-Bench

2025년 9월 9일

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Medical Imaging #Foundation Models #DINOv3 #Self-Supervised Learning #Vision Transformer #2D/3D Classification #Segmentation #Domain Adaptation #Scaling Laws

2025년 9월 9일

[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.

#Review #Medical Image Retrieval #Self-Supervised Learning #Multimodal #Zero-shot #Foundation Models #MAE #SimDINO #Vision Transformer

2025년 9월 3일

[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.

#Review #Embodied AI #Robot Control #Vision-Language-Action Models #Multimodal Pretraining #Flow Matching #Foundation Models #Generalization #Real-world Robotics

2025년 9월 1일

[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.

#Review #Multimodal Large Language Models #Video Recommendation #Zero-Shot Learning #Content-Based Filtering #Natural Language Processing #Foundation Models

2025년 8월 20일

[논문리뷰] DINOv3

본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Foundation Models #Vision Transformer #Dense Feature Maps #Gram Anchoring #Model Distillation #Geospatial AI

2025년 8월 18일

[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.

#Review #Visual Encoders #Metadata #Image Processing #Image Acquisition #Robustness #CLIP #Foundation Models #Distribution Shift

2025년 8월 15일

[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다.

#Review #Self-Evolving AI Agents #Lifelong Learning #Foundation Models #Multi-Agent Systems #Agent Optimization #Prompt Engineering #Tool Use #AI Safety #Survey

2025년 8월 12일

[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.

#Review #Vision-Language-Action Models #Latent Actions #Robot Manipulation #Pre-training #Diffusion Models #Proprioceptive Feedback #Foundation Models

2025년 8월 2일

[논문리뷰] Rethinking Visual Intelligence: Insights from Video Pretraining

Large Language Models (LLMs)의 성공에도 불구하고 시각 도메인에서 구성적 이해, 샘플 효율성, 범용 문제 해결 의 한계가 지속되고 있습니다.

#Review #Video Diffusion Models #Visual Intelligence #Pretraining #Foundation Models #Low-resource Learning #Inductive Biases #Visual Reasoning #Image-to-Image Tasks

2025년 10월 29일

[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

본 논문은 기존 API 또는 GUI 기반 접근 방식의 한계로 인한 확장성 및 일반화 능력 부족 문제를 해결하고자 합니다.

#Review #Generalist AI #Game Agents #Multimodal Learning #Foundation Models #ReAct #Sparse Thinking #Continual Pre-training #Human-Native Interaction

2025년 10월 29일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일

[논문리뷰] Model Merging with Functional Dual Anchors

본 논문은 파운데이션 모델의 finetuned 체크포인트에서 지식을 통합하는 모델 병합(Model Merging) 과정에서 발생하는 파라미터 충돌 과 태스크별 지식 충돌 문제를 해결하는 것을 목표로 합니다.

#Review #Model Merging #Functional Dual Anchors #Input-Representation Space #Task Vectors #Knowledge Integration #Foundation Models #Gradient Matching #Post-training Strategy

2025년 10월 27일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일

[논문리뷰] Chronos-2: From Univariate to Universal Forecasting

기존 사전 훈련된 시계열 모델이 주로 단변량 예측에 국한되어 실제 다변량 데이터 및 공변량 활용에 한계가 있다는 문제점을 해결하고자 합니다. Chronos-2 는 단변량, 다변량, 공변량 정보 기반 예측 태스크 를 제로샷 방식 으로 처리할 수 있는 범용적인 사전 훈련 모델을 개발하는 것을 목표로 합니다.

#Review #Time Series Forecasting #Foundation Models #Pretrained Models #Transformer #In-Context Learning #Multivariate Forecasting #Covariates #Group Attention

2025년 10월 21일

[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

본 연구는 인간처럼 여러 모달리티에 걸쳐 세상을 인지하고 추론할 수 있는 강력한 오픈소스 옴니모달 LLM(Omni-Modal LLM) 인 OmniVinci 를 구축하는 것을 목표로 합니다.

#Review #Omni-Modal LLM #Multimodal Understanding #Vision-Audio Alignment #Temporal Reasoning #Data Curation #Foundation Models #Contrastive Learning #Rotary Time Embedding

2025년 10월 20일

[논문리뷰] Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition

본 논문은 GPT-4 및 AlphaFold와 같은 파운데이션 모델(FMs) 이 과학 연구의 기존 방법론을 단순히 개선하는 것을 넘어, 새로운 과학 패러다임으로의 전환을 촉진하고 있다는 주장을 제시합니다.

#Review #Foundation Models #Scientific Discovery #Paradigm Shift #Human-AI Collaboration #Autonomous Agents #Meta-Science #Experimental Design #Hypothesis Generation

2025년 10월 20일

[논문리뷰] Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents

기존 웹 에이전트 시스템들이 정보 탐색 기능에만 중점을 두고 정보 집계 능력을 간과하여 심층적인 연구 결과 생성을 제한하는 문제를 해결하고자 합니다.

#Review #Web Agents #Information Aggregation #Data Synthesis #Online Exploration #Foundation Models #Multi-hop QA #Deep Research

2025년 10월 20일

[논문리뷰] The Role of Computing Resources in Publishing Foundation Model Research

본 논문은 GPU, 데이터, 인적 자원과 같은 컴퓨팅 리소스가 파운데이션 모델(FM) 연구의 과학적 발전 및 출판에 미치는 영향을 평가합니다. 특히 이러한 리소스 접근성이 연구 성과, 출판율, 인용 수에 어떤 상관관계를 가지는지 분석하고, 리소스 불균형이 AI 연구 생태계에 미치는 영향을 탐구하는 것을 목표로 합니다.

#Review #Foundation Models #Computing Resources #GPU Disparity #AI Research #Publication Bias #Resource Allocation #Research Transparency

2025년 10월 16일

[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation

논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.

#Review #Referring Video Object Segmentation #Foundation Models #Prompt Engineering #Object Tracking #SAM #Video Analysis #Prompt Preference Learning

2025년 10월 13일

[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation

이 논문은 자기 지도(self-supervised) 단안 깊이 추정(MDE)에서 기존 방법론의 한계를 극복하고자 합니다.

#Review #Self-supervised Monocular Depth Estimation #Foundation Models #CLIP #DINO #Language Guidance #Coarse-to-fine Learning #Feature Aggregation #3D Perception

2025년 10월 13일

[논문리뷰] AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

재단 모델(FMs)의 제한된 내재적 추론 능력과 불안정한 테스트 시간 반복이라는 두 가지 핵심 병목 현상을 해결하고자 합니다. 이 연구는 FM이 복잡한 벤치마크에서 겪는 어려움을 극복하고, 신뢰할 수 있는 심층 에이전트 추론을 위한 자가 진화 시스템을 구축하는 것을 목표로 합니다.

#Review #Foundation Models #Agentic Reasoning #Tool Use #Self-Evolving System #Retrieval-Augmented Generation #Computational Tools #Error Correction

2025년 10월 9일

[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

본 논문은 대규모 파운데이션 모델에서 Test-Time Training (TTT) 의 효과를 심층적으로 이해하고, 특히 모델이 이미 학습한 in-distribution 데이터 에 대해서도 TTT가 성능 향상을 가져올 수 있는지 규명하는 것을 목표로 합니다.

#Review #Test-Time Training (TTT)#Foundation Models #Underparameterization #Sparse Autoencoders (SAE)#Linear Representation Hypothesis (LRH)#Specialization #Scaling Laws #In-Distribution Data

2025년 10월 1일