[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.#Review#Target Viewpoint Reproduction#TVRBench#Active Exploration#Foundation Models#Spatial Intelligence#Embodied AI#GRPO#SFT2026년 6월 1일댓글 수 로딩 중
[논문리뷰] One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation본 연구는 기존 세포 인스턴스 분할 모델들이 학습 데이터에 종속되어 Out-of-Distribution (OOD) 세포 유형에서 성능이 급격히 저하되는 문제를 해결하고자 합니다.#Review#Cell Instance Segmentation#Foundation Models#Group Prompting#Chain-of-Prompts#Training-free#Histopathology#SAM2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking본 논문은 기존의 VOT 방식들이 task-specific supervised training에 의존하여 unseen 환경에 대한 일반화 능력이 제한적이라는 점을 지적합니다.#Review#Visual Object Tracking#Foundation Models#SAM 2#Nonlinear Motion#Motion Predictor#Error Detection-Recovery2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design본 연구는 Recursive Self-Improvement의 일환으로 LLM 에이전트가 기존 Transformer 패러다임을 넘어선 차세대 foundation model을 자율적으로 설계할 수 있는지 탐구합니다.#Review#Neural Architecture Search#Foundation Models#LLM Agents#Recursive Self-Improvement#Hybrid Architectures#AIRS-Bench2026년 5월 17일댓글 수 로딩 중
[논문리뷰] TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding본 논문은 LLM이 자연어 처리에 성공한 것과 달리, tabular 데이터를 위한 통합된 representation 패러다임이 부재하다는 점을 해결하고자 합니다 .#Review#Tabular Embedding#Contrastive Learning#Tabular Understanding#Foundation Models#Representation Learning#Tabular Retrieval2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Audio-Visual Intelligence in Large Foundation Models본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.#Review#Audio-Visual Intelligence#Foundation Models#Multimodal Fusion#Embodied AI#Cross-modal Generation2026년 5월 7일댓글 수 로딩 중
[논문리뷰] OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models본 논문은 해양 데이터의 파편화와 도메인 특화 데이터의 부재로 인해 발생하는 해양 인공지능(Marine AI)의 성능 병목 현상을 해결하고자 한다.#Review#Multimodal Large Language Models#Marine Science#Foundation Models#Data Corpus#Instruction Tuning#Sonar Detection2026년 5월 4일댓글 수 로딩 중
[논문리뷰] NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results본 챌린지에서는 총 2,000개의 다양한 비디오로 구성된 새로운 데이터셋을 활용하였으며, 7개의 최종 팀이 제안한 모델들을 평가했습니다. 우승 팀인 iLearn은 InternVideo2 백본을 공유하고 두 개의 상호 보완적인 디코더를 앙상블(Ensemble)하는 다중 전문가 프레임워크를 제안했습니다 .#Review#Video Saliency Prediction#Crowdsourcing#Foundation Models#Spatiotemporal Modeling#NTIRE 2026 Challenge2026년 4월 19일댓글 수 로딩 중
[논문리뷰] MedGemma 1.5 Technical Report본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .#Review#MedGemma#Multimodal Learning#Medical Imaging#Foundation Models#Volumetric Analysis#Histopathology#Clinical Reasoning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models본 연구는 합성 동역학 시스템을 활용한 제어된 실험을 통해 이산적 토큰화(tokenization)가 기하학적 불안정성의 원인임을 입증합니다. 동일한 인코더 백본을 유지한 채 출력 헤드만 이산적인 Cross-Entropy 대신 연속적인 MSE 기반으로 변경했을 때, 기하학적 왜곡이 최대 8.5배 감소함을 확인하였습니다 .#Review#Geometric Alignment Tax#Foundation Models#Tokenization#Manifold Fracture#Rate-Distortion Theory2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image Domains본 논문은 자연 이미지 도메인과 달리 도메인 이동(Domain Shift)과 데이터 분포의 심각한 불균형이 존재하는 과학적 이미지 도메인에서 파운데이션 모델의 미세 조정이 효과적이지 않다는 문제를 해결하고자 합니다.#Review#Long-Tailed Recognition#Scientific Image Domain#Foundation Models#Parameter-Efficient Fine-Tuning#Feature Fusion#Domain Shift#Representation Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions기존의 Hand-Object Interaction (HOI) 재구성 연구는 주로 강체(Rigid Object)만을 다루거나, 관절형 물체의 4D 재구성을 위해 사전에 스캔된 3D 템플릿 혹은 다중 시점(Multi-view) 비디오와 같은 제약적인 입력을 필요로 했습니다.#Review#4D Reconstruction#Hand-Object Interaction#Foundation Models#Articulated Objects#Monocular Video#Optimization2026년 3월 31일댓글 수 로딩 중
[논문리뷰] WorldAgents: Can Foundation Image Models be Agents for 3D World Models?최근 2D Foundation Models는 Text-to-Image Diffusion을 통해 탁월한 High-fidelity 이미지 생성 능력과 깊은 Semantic Understanding을 보여주었습니다.#Review#3D World Generation#Foundation Models#Multi-Agent System#Vision-Language Models#3D Consistency#Gaussian Splatting2026년 3월 22일댓글 수 로딩 중
[논문리뷰] M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAMuncalibrated monocular video로부터 streaming reconstruction을 수행하는 것은 고정밀 pose estimation과 동적 환경에서의 계산적으로 효율적인 online refinement가 모두 필요하므로 여전히 challenging합니다.#Review#SLAM#Streaming Reconstruction#3D Gaussian Splatting#Monocular Video#Foundation Models#Dense Matching2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.#Review#Vision Transformer#Out-of-Distribution#Linear Probing#Distribution Shift#Foundation Models#Intermediate Layers#Module Analysis2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Locality-Attending Vision Transformer본 논문은 이미지 분류 훈련 후 Vision Transformer (ViT)의 dense prediction 성능, 특히 segmentation 성능을 향상 시키는 것을 목표로 합니다.#Review#Vision Transformer#Semantic Segmentation#Attention Mechanism#Locality Bias#Gaussian Kernel#Patch Representation#Foundation Models2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.#Review#Model Context Protocol#AI Agents#Tool Descriptions#Software Smells#Prompt Engineering#Foundation Models#Performance Evaluation#Ablation Study2026년 2월 25일댓글 수 로딩 중
[논문리뷰] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency기존 3D 형상 완성 방법론들이 다양한 부분 관측 패턴, 범주 간 일반화, 그리고 쌍을 이루는 데이터셋 의존성 및 불완전한 렌더링 가정에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#3D Shape Completion#Zero-shot#Latent-Spatial Consistency#Foundation Models#Diffusion Models#Category-Agnostic#Generative Priors2026년 2월 24일댓글 수 로딩 중
[논문리뷰] VLANeXt: Recipes for Building Strong VLA Models파편화되어 있는 Vision-Language-Action (VLA) 모델 연구 분야에 구조를 제공하고, 일관된 프레임워크와 평가 환경에서 VLA 모델의 설계 공간을 체계적으로 재검토하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Foundation Models#Ablation Study#Generalization#LIBERO Benchmark#Time-Series Forecasting2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Large Causal Models for Temporal Causal Discovery본 논문은 시계열 데이터에 대한 인과 관계 탐색(Causal Discovery, CD)에서 데이터셋별 모델 학습 패러다임의 한계 를 극복하고자 합니다.#Review#Causal Discovery#Temporal Models#Foundation Models#Transformer Architecture#Zero-shot Learning#Time-series Data#Scalability#Multi-dataset Pretraining2026년 2월 23일댓글 수 로딩 중
[논문리뷰] World Action Models are Zero-shot Policies본 논문은 Vision-Language-Action (VLA) 모델의 한계인 새로운 환경에서 미지의 물리적 동작에 대한 일반화 능력 부족을 해결하고자 합니다.#Review#World Action Models#Video Diffusion Models#Zero-shot Generalization#Cross-embodiment Transfer#Real-time Control#Robotics#Foundation Models#Flow Matching2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training본 논문은 파운데이션 모델 학습 데이터 처리의 체계적인 프레임워크 부재 문제를 해결하고자 합니다.#Review#Data Darwinism#Scientific Data#Pre-training#Foundation Models#Data Processing Hierarchy#Generative Refinement#Cognitive Completion#Learnability Gap2026년 2월 16일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources이 논문은 이질적인 센서 노이즈, 카메라 의존적 편향, 그리고 노이즈가 많은 교차 소스 3D 데이터의 모호성으로 인해 확장이 어려웠던 Metric Depth Estimation 의 문제를 해결하고자 합니다.#Review#Metric Depth Estimation#Pretraining#Foundation Models#Sparse Prompts#Heterogeneous Data#Zero-Shot Learning#Multi-modal Learning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] A Pragmatic VLA Foundation Model이 논문은 로봇 조작을 위한 Vision-Language-Action (VLA) 파운데이션 모델 이 다양한 작업과 플랫폼에서 비용 효율적으로 일반화되는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Model#Robotics#Foundation Models#Multi-Embodiment Learning#Data Scaling#Computational Efficiency#Real-world Deployment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation본 논문은 일반 자연 이미지에 대해 강력한 성능을 보인 SAM3 와 같은 프롬프트 기반 분할 파운데이션 모델이 심각한 도메인 시프트, 특권적인 공간 프롬프트의 부재, 복잡한 해부학적 및 체적 구조 추론의 필요성으로 인해 의료 영상 분할에 직접 적용하기 어려운 문제를 해결하는 것을 목표로 합니다.#Review#Medical Image Segmentation#Foundation Models#SAM3#Fine-tuning#Prompt-driven#Domain Adaptation#Text-guided Segmentation2026년 1월 19일댓글 수 로딩 중
[논문리뷰] VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation본 논문은 반지도 학습 기반 의료 영상 분할에서 기존 dropout 방식의 불안정하고 튜닝이 어려운 특성 교란 문제를 해결하고자 합니다.#Review#Semi-supervised Learning#Medical Image Segmentation#Vector Quantization#Consistency Learning#Feature Perturbation#Foundation Models#Dropout Replacement2026년 1월 15일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical Report본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web Agents기존 웹 에이전트들이 경험을 수동적으로 전역 컨텍스트로 주입하여 동적으로 변하는 환경에서 비효율적인 탐색과 신뢰할 수 없는 응답을 생성하는 문제를 해결하고자 합니다.#Review#Web Agents#Experience Seeking#Self-Triggered#LLM Reasoning#Entropy#Proactive Guidance#Reinforcement Learning#Foundation Models2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking본 논문은 텍스트, 이미지, 문서 이미지, 비디오 등 다양한 양식의 데이터를 통합 하여 고정밀 멀티모달 검색을 수행하는 Qwen3-VL-Embedding 및 Qwen3-VL-Reranker 모델 시리즈를 소개합니다.#Review#Multimodal Retrieval#Multimodal Ranking#Foundation Models#Embedding Models#Reranking Models#Contrastive Learning#Knowledge Distillation#Matryoshka Representation Learning#Quantization-Aware Training2026년 1월 11일댓글 수 로딩 중
[논문리뷰] NitroGen: An Open Foundation Model for Generalist Gaming Agents논문은 대규모의 다양하고 레이블링된 행동 데이터 부족으로 인해 지연되었던, 일반화된 행동을 할 수 있는 embodied agent 개발을 목표로 합니다.#Review#Generalist Agents#Foundation Models#Behavior Cloning#Video Games#Action Extraction#Multi-game#Embodied AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems본 논문은 자율 시스템을 위한 진정한 공간 지능(Spatial Intelligence) 을 구축하기 위해 다중 모달(multi-modal) 온보드 센서 데이터 사전 훈련에 대한 포괄적인 로드맵을 제시합니다.#Review#Multi-modal Pre-training#Autonomous Systems#Spatial Intelligence#Foundation Models#LiDAR-Camera Fusion#Self-Supervised Learning#Generative World Models#Embodied AI2025년 12월 31일댓글 수 로딩 중
[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.#Review#GUI Agents#Foundation Models#Reinforcement Learning#Device-Cloud Collaboration#Mobile Navigation#Tool Augmentation#User Interaction2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] SAM Audio: Segment Anything in Audio본 논문은 기존의 도메인 특화되거나 단일 모달 프롬프트에 한정된 오디오 분리 모델의 한계를 극복하고자 합니다. 텍스트, 시각, 시간 스팬 프롬프팅을 단일 프레임워크 내에서 통합하여 일반 오디오 분리를 위한 범용 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Audio Source Separation#Foundation Models#Multimodal Prompting#Diffusion Transformers#Flow Matching#Self-Supervised Learning#Reference-Free Evaluation#Audio-Visual Learning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding본 논문은 최신 파운데이션 모델에서 추상적 의미(semantic abstraction)와 시각적 충실도(pixel-level fidelity) 사이의 근본적인 불일치를 해결하는 것을 목표로 합니다.#Review#Unified Autoencoding#Prism Hypothesis#Semantic Representations#Pixel Representations#Frequency-Band Modulator#Foundation Models#Spectral Bias#Generative Models2025년 12월 22일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.#Review#Pixel Supervision#Self-Supervised Learning#Masked Autoencoders (MAE)#Visual Pre-training#Foundation Models#Representation Learning#Web-Scale Data#Computer Vision2025년 12월 17일댓글 수 로딩 중
[논문리뷰] A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning이 논문은 고수준 추론과 저수준 그라운딩이 긴밀하게 결합된 기존 end-to-end 어포던스 예측 모델들이 새로운 객체나 복잡한 지시에 대한 일반화에 어려움을 겪는 한계를 해결하고자 합니다.#Review#Affordance Prediction#Zero-Shot Learning#Agentic AI#Foundation Models#Multimodal Reasoning#Visual Grounding#Image Generation#Robotics2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.#Review#Vision-Language Navigation#Dual-System Architecture#Foundation Models#Diffusion Policies#Robotics#Real-time Control#Generalization#Autonomous Navigation2025년 12월 9일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsSIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.#Review#4D World Modeling#Multimodal Data#Dynamic Scenes#Metric-Scale#Bundle Adjustment#Foundation Models#Video Analysis#Data Curation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] LFM2 Technical Report본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.#Review#Edge AI#Foundation Models#Hybrid Architecture#Knowledge Distillation#Multimodal AI#On-device Deployment#Efficient Inference#LLM Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.#Review#Robotic Manipulation#Reinforcement Learning#Vision-Language-Action#Dexterous Control#Long-Horizon Tasks#Data Filtering#Data Augmentation#Foundation Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.#Review#3D World Generation#City-Scale#Multimodal Agents#Reality Alignment#Urban Simulation#Foundation Models#Geospatial Data2025년 11월 26일댓글 수 로딩 중
[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking수술 비디오 세분화는 컴퓨터 지원 수술에 필수적이지만, 기존 SAM2 와 같은 iVOS 모델은 도메인 격차, 제한된 장기 추적 능력, 다중 소스 데이터셋 간의 주석 불일치 문제에 직면해 있습니다.#Review#Surgical Video Segmentation#Interactive Video Object Segmentation#Long-term Tracking#Foundation Models#Domain Adaptation#Semantic Learning#Prompt-based Segmentation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity본 논문은 기존 Segment Anything Model (SAM) 계열의 모델들이 가지는 세분화(granularity) 제어의 한계를 극복하고, 인간의 주석 없이 모든 세분화 수준에서 연속적이고 제어 가능한 객체 분할 을 가능하게 하는 것을 목표로 합니다.#Review#Self-Supervised Learning#Segmentation#Granularity Control#SAM#Foundation Models#Unsupervised Learning#Image Segmentation#Video Segmentation2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm기존의 'Thinking with Text' 및 'Thinking with Images' 패러다임이 가진 정적 이미지의 한계와 모달리티 분리 문제를 극복하고자 합니다.#Review#Video Generation#Multimodal Reasoning#Temporal Understanding#Spatial Reasoning#Foundation Models#AI Benchmarking#In-Context Learning#Self-Consistency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning본 논문은 기존의 테이블 인컨텍스트 학습(ICL) 모델들이 직면한 단일 스케일 피처 처리, 테이블 너비에 대한 Quadratic Scaling 의 조밀한 어텐션, 그리고 순차적 컴포넌트 처리의 한계를 해결하는 것을 목표로 합니다.#Review#Tabular Data#In-Context Learning#Multi-Scale Attention#Sparse Attention#Foundation Models#Perceiver Architecture2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.#Review#Scientific Reasoning#Foundation Models#Multi-modal Learning#Cross-domain Generalization#Chain-of-Thought#Reinforcement Learning#Scientific Discovery#Molecular Design2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Video models are zero-shot learners and reasoners본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.#Review#Video Models#Zero-shot Learning#Visual Reasoning#Foundation Models#Generative AI#Perception#Manipulation#Modeling2025년 9월 25일댓글 수 로딩 중
[논문리뷰] MAPO: Mixed Advantage Policy Optimization본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.#Review#Reinforcement Learning#Foundation Models#Policy Optimization#Advantage Function#Trajectory Certainty#Multimodal Reasoning#GRPO2025년 9월 24일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for Agency현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.#Review#AI Agency#Data Curation#Less Is More#Agentic Intelligence#Foundation Models#Evaluation Benchmark#Efficiency Principle#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios본 논문은 Long-Tailed Semi-Supervised Learning (LTSSL)에서 발생하는 기존 문제점들, 즉 모델의 과신(overconfidence) 과 저품질 의사 레이블(pseudo-labels) 문제를 해결하는 것을 목표로 합니다.#Review#Long-tailed Learning#Semi-Supervised Learning#Parameter-Efficient Fine-Tuning#Foundation Models#Open-World Scenarios#OOD Detection#Confidence Calibration2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.#Review#Unified Audio-Video Generation#Stitching of Experts (SoE)#Multimodal Diffusion#Online Annotation#Cross-modal Noise Correlation#Foundation Models#Verse-Bench2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.#Review#Medical Imaging#Foundation Models#DINOv3#Self-Supervised Learning#Vision Transformer#2D/3D Classification#Segmentation#Domain Adaptation#Scaling Laws2025년 9월 9일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.#Review#Medical Image Retrieval#Self-Supervised Learning#Multimodal#Zero-shot#Foundation Models#MAE#SimDINO#Vision Transformer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control본 연구는 기존 VLA 모델들이 가진 제한된 도메인 및 유연성 문제를 해결하고, 개방형 환경에서 인간 수준의 유연한 다중 모달 추론 및 물리적 상호작용 을 가능하게 하는 일반ist 로봇 제어를 목표로 합니다.#Review#Embodied AI#Robot Control#Vision-Language-Action Models#Multimodal Pretraining#Flow Matching#Foundation Models#Generalization#Real-world Robotics2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.#Review#Multimodal Large Language Models#Video Recommendation#Zero-Shot Learning#Content-Based Filtering#Natural Language Processing#Foundation Models2025년 8월 20일댓글 수 로딩 중
[논문리뷰] DINOv3본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.#Review#Visual Encoders#Metadata#Image Processing#Image Acquisition#Robustness#CLIP#Foundation Models#Distribution Shift2025년 8월 15일댓글 수 로딩 중
[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다.#Review#Self-Evolving AI Agents#Lifelong Learning#Foundation Models#Multi-Agent Systems#Agent Optimization#Prompt Engineering#Tool Use#AI Safety#Survey2025년 8월 12일댓글 수 로딩 중
[논문리뷰] villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델에서 로봇 조작 정책 학습을 위한 잠재 행동(latent actions) 모델링을 개선하는 새로운 프레임워크인 villa-X 를 제안합니다.#Review#Vision-Language-Action Models#Latent Actions#Robot Manipulation#Pre-training#Diffusion Models#Proprioceptive Feedback#Foundation Models2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Rethinking Visual Intelligence: Insights from Video PretrainingLarge Language Models (LLMs)의 성공에도 불구하고 시각 도메인에서 구성적 이해, 샘플 효율성, 범용 문제 해결 의 한계가 지속되고 있습니다.#Review#Video Diffusion Models#Visual Intelligence#Pretraining#Foundation Models#Low-resource Learning#Inductive Biases#Visual Reasoning#Image-to-Image Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents본 논문은 기존 API 또는 GUI 기반 접근 방식의 한계로 인한 확장성 및 일반화 능력 부족 문제를 해결하고자 합니다.#Review#Generalist AI#Game Agents#Multimodal Learning#Foundation Models#ReAct#Sparse Thinking#Continual Pre-training#Human-Native Interaction2025년 10월 29일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중
[논문리뷰] The Role of Computing Resources in Publishing Foundation Model Research본 논문은 GPU, 데이터, 인적 자원과 같은 컴퓨팅 리소스가 파운데이션 모델(FM) 연구의 과학적 발전 및 출판에 미치는 영향을 평가합니다. 특히 이러한 리소스 접근성이 연구 성과, 출판율, 인용 수에 어떤 상관관계를 가지는지 분석하고, 리소스 불균형이 AI 연구 생태계에 미치는 영향을 탐구하는 것을 목표로 합니다.#Review#Foundation Models#Computing Resources#GPU Disparity#AI Research#Publication Bias#Resource Allocation#Research Transparency2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.#Review#Referring Video Object Segmentation#Foundation Models#Prompt Engineering#Object Tracking#SAM#Video Analysis#Prompt Preference Learning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation이 논문은 자기 지도(self-supervised) 단안 깊이 추정(MDE)에서 기존 방법론의 한계를 극복하고자 합니다.#Review#Self-supervised Monocular Depth Estimation#Foundation Models#CLIP#DINO#Language Guidance#Coarse-to-fine Learning#Feature Aggregation#3D Perception2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning재단 모델(FMs)의 제한된 내재적 추론 능력과 불안정한 테스트 시간 반복이라는 두 가지 핵심 병목 현상을 해결하고자 합니다. 이 연구는 FM이 복잡한 벤치마크에서 겪는 어려움을 극복하고, 신뢰할 수 있는 심층 에이전트 추론을 위한 자가 진화 시스템을 구축하는 것을 목표로 합니다.#Review#Foundation Models#Agentic Reasoning#Tool Use#Self-Evolving System#Retrieval-Augmented Generation#Computational Tools#Error Correction2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Model Merging with Functional Dual Anchors본 논문은 파운데이션 모델의 finetuned 체크포인트에서 지식을 통합하는 모델 병합(Model Merging) 과정에서 발생하는 파라미터 충돌 과 태스크별 지식 충돌 문제를 해결하는 것을 목표로 합니다.#Review#Model Merging#Functional Dual Anchors#Input-Representation Space#Task Vectors#Knowledge Integration#Foundation Models#Gradient Matching#Post-training Strategy2025년 10월 27일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.#Review#Computer Use Agents#Hybrid Action#Foundation Models#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data Generation#Tool Learning#GUI Automation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Chronos-2: From Univariate to Universal Forecasting기존 사전 훈련된 시계열 모델이 주로 단변량 예측에 국한되어 실제 다변량 데이터 및 공변량 활용에 한계가 있다는 문제점을 해결하고자 합니다. Chronos-2 는 단변량, 다변량, 공변량 정보 기반 예측 태스크 를 제로샷 방식 으로 처리할 수 있는 범용적인 사전 훈련 모델을 개발하는 것을 목표로 합니다.#Review#Time Series Forecasting#Foundation Models#Pretrained Models#Transformer#In-Context Learning#Multivariate Forecasting#Covariates#Group Attention2025년 10월 21일댓글 수 로딩 중
[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM본 연구는 인간처럼 여러 모달리티에 걸쳐 세상을 인지하고 추론할 수 있는 강력한 오픈소스 옴니모달 LLM(Omni-Modal LLM) 인 OmniVinci 를 구축하는 것을 목표로 합니다.#Review#Omni-Modal LLM#Multimodal Understanding#Vision-Audio Alignment#Temporal Reasoning#Data Curation#Foundation Models#Contrastive Learning#Rotary Time Embedding2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition본 논문은 GPT-4 및 AlphaFold와 같은 파운데이션 모델(FMs) 이 과학 연구의 기존 방법론을 단순히 개선하는 것을 넘어, 새로운 과학 패러다임으로의 전환을 촉진하고 있다는 주장을 제시합니다.#Review#Foundation Models#Scientific Discovery#Paradigm Shift#Human-AI Collaboration#Autonomous Agents#Meta-Science#Experimental Design#Hypothesis Generation2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents기존 웹 에이전트 시스템들이 정보 탐색 기능에만 중점을 두고 정보 집계 능력을 간과하여 심층적인 연구 결과 생성을 제한하는 문제를 해결하고자 합니다.#Review#Web Agents#Information Aggregation#Data Synthesis#Online Exploration#Foundation Models#Multi-hop QA#Deep Research2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models본 논문은 대규모 파운데이션 모델에서 Test-Time Training (TTT) 의 효과를 심층적으로 이해하고, 특히 모델이 이미 학습한 in-distribution 데이터 에 대해서도 TTT가 성능 향상을 가져올 수 있는지 규명하는 것을 목표로 합니다.#Review#Test-Time Training (TTT)#Foundation Models#Underparameterization#Sparse Autoencoders (SAE)#Linear Representation Hypothesis (LRH)#Specialization#Scaling Laws#In-Distribution Data2025년 10월 1일댓글 수 로딩 중