#Foundation Model

36개의 포스트

[논문리뷰] S1-Omni: A Unified Multimodal Reasoning Model for Scientific Understanding, Prediction, and Generation

본 논문은 기존의 AI for Science(AI4S) 연구들이 Domain-specific models, Tool-augmented LLMs, 그리고 Scientific language models로 파편화되어 있다는 문제점을 해결하고자 합니다 .

#Review #AI4S #Multimodal Reasoning #Scientific Modeling #Foundation Model #S1-Omni #Knowledge Alignment

2026년 7월 19일

[논문리뷰] WanSong v1.0 Technical Report

본 논문은 기존의 Autoregressive(AR) 기반 오디오 생성 모델이 가진 낮은 효율성과 장기 오디오 생성 시의 일관성 유지 문제를 해결하기 위해 고안되었습니다. 기존 연구들은 다단계(Cascaded) 파이프라인이나 AR 모델을 주로 채택하여 복잡성이 높고 효율성이 떨어지는 한계가 있습니다.

#Review #Diffusion-based Model #Music Generation #Dual-stem Modeling #Hybrid-MMDit #Reinforcement Learning #Foundation Model

2026년 7월 16일

[논문리뷰] Self-Improvements in Modern Agentic Systems: A Survey

본 논문은 현대의 Agentic Systems가 어떻게 인간의 개입을 최소화하면서 경험을 통해 스스로 역량을 확장할 수 있는지에 대한 체계적인 분석을 제공합니다. 기존 연구들은 개별적인 개선 기법에 집중해왔으나, 이러한 기술들을 포괄하는 통합된 프레임워크가 부족했습니다.

#Review #Agentic Systems #Self-Improvement #Foundation Model #Scaffolding #Meta-Learning #Autonomous Agents

2026년 7월 15일

[논문리뷰] ABot-N1: Toward a General Visual Language Navigation Foundation Model

본 논문은 기존의 단일 통합 정책(Monolithic Policy)이 가진 navigation의 한계점과 확장성 문제를 해결하기 위해 ABot-N1을 제안합니다 .

#Review #Visual Language Navigation #Foundation Model #Slow-Fast Architecture #Chain-of-Thought #Pixel Goal #Embodied AI #Cross-Task Generalization

2026년 7월 13일

[논문리뷰] A Sovereign, Open-Source Foundation Model for German and English

본 연구는 기존 오픈 소스 모델들이 가진 세 가지 핵심적인 한계를 해결하고자 합니다. 첫째, 상당수의 '오픈' 모델들이 실제로는 가중치만 공개하고 데이터와 학습 레시피를 불투명하게 처리하여 재현성을 저해하고 있습니다.

#Review #Foundation Model #Mixture-of-Experts #Mamba-Transformer #Long-context #Sovereign AI #German-English #Open-Source

2026년 7월 12일

[논문리뷰] Accurate, Interdisciplinary and Transparent Structure-property Understanding with Deep Native Structural Reasoning

본 연구는 단백질, 화학 물질, 무기 결정 등 과학적 구조(Structure)와 물성(Property) 간의 복잡한 관계를 해석하는 과정에서 기존 AI 시스템이 겪는 표현력과 추론의 한계를 해결하고자 합니다.

#Review #Foundation Model #Structure-property Relationship #Multimodal Reasoning #Scientific AI #Chain-of-thought #Native Structural Reasoning

2026년 7월 8일

[논문리뷰] MuSViT: A Foundation Vision Model for Sheet Music Representation

본 연구는 시각적 악보(Sheet Music) 데이터를 구조화된 디지털 포맷으로 변환하는 강력한 도메인 전용 Backbone 모델의 부재를 해결하고자 합니다.

#Review #Foundation Model #Vision Transformer #Sheet Music Recognition #Masked Autoencoders #Self-supervised Learning #Optical Music Recognition

2026년 6월 30일

[논문리뷰] Qwen-AgentWorld: Language World Models for General Agents

본 연구는 대규모 언어 모델(LLM) 기반 에이전트가 효과적으로 작동하기 위해 필수적인 환경 시뮬레이션 능력, 즉 World Model의 부재를 해결하고자 합니다. 기존 연구는 에이전트의 정책(Policy) 결정에만 집중할 뿐, 환경의 동역학을 예측하는 World Model 구축에는 소홀했습니다.

#Review #Language World Model #Agentic Environment #Foundation Model #Reinforcement Learning #Chain-of-Thought #Agentic Agents #Simulation Fidelity

2026년 6월 23일

[논문리뷰] Towards Consistent Video Geometry Estimation

본 논문은 기존 비디오 기하학 추정 모델들이 모델 구조나 학습 프로토콜에 따라 offline(full-sequence) 또는 online(streaming) 환경 중 하나에만 국한되는 문제를 해결합니다.

#Review #Foundation Model #Video Geometry Estimation #Dynamic Chunking Attention #Depth Estimation #Surface Normal Estimation #Point Map Estimation

2026년 5월 28일

[논문리뷰] Woosh: A Sound Effects Foundation Model

본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.

#Review #Foundation Model #Sound Effects #Latent Diffusion Model #Flow Matching #Audio-Visual Generation #Distillation

2026년 4월 2일

[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology

현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.

#Review #Computational Pathology #Foundation Model #Patient-First Representation #Multi-Instance Learning #Self-Supervised Learning #Case Transformer

2026년 3월 30일

[논문리뷰] Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

기존 Radar-only 모델은 대규모 대기 Context 부족으로 인해 예측 Lead Time이 길어질수록 성능 저하를 겪는다 [cite: 1, Figure 1].

#Review #Precipitation Nowcasting #Spectral Fusion #Radar Observations #Foundation Model #Pangu-Weather #Frequency Domain #Deep Learning

2026년 3월 26일

[논문리뷰] MOSS-TTS Technical Report

Text-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.

#Review #Speech Generation #Foundation Model #Audio Tokenizer #Autoregressive Modeling #Voice Cloning #Duration Control #Multilingual TTS

2026년 3월 19일

[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.

#Review #Time Series Forecasting #Foundation Model #Mixture-of-Experts (MoE)#Serial Scaling #Transformer #Pre-training #Probabilistic Forecasting #Data Augmentation

2026년 3월 5일

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.

#Review #Point Clouds #Self-supervised Learning #Multi-domain Learning #Foundation Model #Point Transformer #Representation Learning #Robotics #Spatial Reasoning

2026년 3월 3일

[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering

본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.

#Review #Foundation Model #Agentic AI #Reinforcement Learning #Sparse Attention #Software Engineering #Long-Context Models #GPU Optimization

2026년 2월 17일

[논문리뷰] HY3D-Bench: Generation of 3D Assets

3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.

#Review #3D Generation #Dataset #Benchmark #AIGC #Watertight Mesh #Part-level Decomposition #Foundation Model #Robotics

2026년 2월 4일

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…

#Review #Embodied AI #Foundation Model #3D Spatial Reasoning #Temporal Value Estimation #Robotics #Manipulation #Multimodal Learning

2026년 1월 21일

[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

기존 산업용 결함 검사 시스템의 높은 오탐률, 낮은 적응성, 일반화 능력 부족, 그리고 블랙박스 모델의 해석 불가능성 한계를 극복하는 것이 목표입니다.

#Review #Industrial Defect Detection #Multimodal Dataset #Vision-Language Model #Diffusion Model #Open-Vocabulary Learning #Quality Inspection #Data Efficiency #Foundation Model

2026년 1월 8일

[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model

기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Audio-Video #Diffusion Transformer #Cross-Modal Attention #Classifier-Free Guidance #Efficient Inference #Foundation Model

2026년 1월 6일

[논문리뷰] K-EXAONE Technical Report

LG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.

#Review #Multilingual Language Model #Mixture-of-Experts (MoE)#Long Context #AI Safety #Korean AI #Foundation Model #Reinforcement Learning (RL)

2026년 1월 5일

[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.

#Review #Foundation Model #Multimodal AI #Weather Nowcasting #Radar Inversion #Weather Understanding #Chain-of-Thought #Shared Attention

2025년 12월 28일

[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

본 연구는 파노라마 깊이 추정의 핵심 과제인 다양한 장면과 거리에서의 일반화 및 측정 일관성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Panoramic Depth Estimation #Foundation Model #Semi-Supervised Learning #Pseudo-Labeling #Data-in-the-Loop #DINOv3 #Metric Depth #360-degree Vision

2025년 12월 18일

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Model (VLM)#Embodied AI #Autonomous Driving #Foundation Model #Multimodal Learning #Task Planning #Affordance Prediction #Spatial Understanding #Reinforcement Learning

2025년 11월 20일

[논문리뷰] Medal S: Spatio-Textual Prompt Model for Medical Segmentation

의료 영상 분할에서 다양한 모달리티와 해부학적 변이로 인한 문제를 해결하고, 기존 모델의 해상도 불일치 및 순차 처리 비효율성을 극복하는 것이 목표입니다.

#Review #Medical Segmentation #Foundation Model #Spatio-Textual Prompts #3D Convolution #Multi-modal Imaging #Dynamic Resampling #Parallel Inference #Iterative Refinement

2025년 11월 19일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology

기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Foundation Model #Radiology #Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning #Vision Transformer #Cross-Modality Generalization

2025년 9월 10일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.

#Review #Large Language Model #Mixture-of-Experts #Agentic AI #Reasoning #Code Generation #Reinforcement Learning #Foundation Model

2025년 8월 11일

[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.

#Review #Robotic Manipulation #World Model #Video Generation #Diffusion Model #Embodied AI #Foundation Model #Robotics Simulation #Policy Learning

2025년 8월 8일

[논문리뷰] Qwen-Image Technical Report

본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Text Rendering #Multimodal Diffusion Transformer #Curriculum Learning #Reinforcement Learning #Foundation Model

2025년 8월 5일

[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

본 연구는 대규모 언어 모델(LLM)의 사이버 보안 분야 통합이 데이터 부족, 복잡한 표현, 안전 및 규제 문제로 인해 제한적이라는 문제를 해결하고자 합니다.

#Review #Large Language Model #Cybersecurity #Instruction Tuning #Direct Preference Optimization #Cyber Threat Intelligence #Foundation Model #Chatbot

2025년 8월 5일

[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.

#Review #3D Asset Generation #Simulation-Ready Assets #Diffusion Models #Physically Based Rendering (PBR)#Embodied AI #Robotic Simulation #Image-to-3D #Foundation Model

2025년 10월 24일

[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation

본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.

#Review #Image Generation #Image Editing #Autoregressive Model #Diffusion Model #Reinforcement Learning #Multimodal AI #Foundation Model #Open-source

2025년 10월 20일

[논문리뷰] A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

이 논문은 추론 중심 LLM(도구 사용 불가)과 에이전트 중심 LLM(추론 능력 부족) 간의 근본적인 격차를 해결하고자 합니다.

#Review #Adaptive Agent #Foundation Model #Hybrid Reasoning #Tool-Aware LLM #Mode Selection #Reinforcement Learning #Cost Efficiency #LLM Agent

2025년 10월 20일

[논문리뷰] Human3R: Everyone Everywhere All at Once

본 논문은 캐주얼하게 촬영된 모노큘러 비디오로부터 세계 좌표계 상의 온라인 4D 인간-장면 재구성 을 위한 통합적이고 피드포워드 방식의 프레임워크인 Human3R을 제안합니다. 기존의 다단계 파이프라인, 반복적 정제, 그리고 인간 감지 및 SLAM과 같은 무거운 전처리에 대한 의존성 문제를 해결하고자 합니다.

#Review #4D Human-Scene Reconstruction #Online Reconstruction #Multi-person #SMPL-X #Transformer #Visual Prompt Tuning #Real-time #Foundation Model

2025년 10월 8일