[논문리뷰] Towards Consistent Video Geometry Estimation본 논문은 기존 비디오 기하학 추정 모델들이 모델 구조나 학습 프로토콜에 따라 offline(full-sequence) 또는 online(streaming) 환경 중 하나에만 국한되는 문제를 해결합니다.#Review#Foundation Model#Video Geometry Estimation#Dynamic Chunking Attention#Depth Estimation#Surface Normal Estimation#Point Map Estimation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Woosh: A Sound Effects Foundation Model본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.#Review#Foundation Model#Sound Effects#Latent Diffusion Model#Flow Matching#Audio-Visual Generation#Distillation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MOOZY: A Patient-First Foundation Model for Computational Pathology현재 병리 인공지능 분야의 파운데이션 모델들은 주로 Slide-centric 구조에 머물러 있어, 한 환자의 여러 슬라이드 간의 임상적 연관성을 효과적으로 모델링하지 못한다는 한계가 있습니다.#Review#Computational Pathology#Foundation Model#Patient-First Representation#Multi-Instance Learning#Self-Supervised Learning#Case Transformer2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors기존 Radar-only 모델은 대규모 대기 Context 부족으로 인해 예측 Lead Time이 길어질수록 성능 저하를 겪는다 [cite: 1, Figure 1].#Review#Precipitation Nowcasting#Spectral Fusion#Radar Observations#Foundation Model#Pangu-Weather#Frequency Domain#Deep Learning2026년 3월 26일댓글 수 로딩 중
[논문리뷰] MOSS-TTS Technical ReportText-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.#Review#Speech Generation#Foundation Model#Audio Tokenizer#Autoregressive Modeling#Voice Cloning#Duration Control#Multilingual TTS2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.#Review#Time Series Forecasting#Foundation Model#Mixture-of-Experts (MoE)#Serial Scaling#Transformer#Pre-training#Probabilistic Forecasting#Data Augmentation2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point Clouds본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.#Review#Foundation Model#Agentic AI#Reinforcement Learning#Sparse Attention#Software Engineering#Long-Context Models#GPU Optimization2026년 2월 17일댓글 수 로딩 중
[논문리뷰] HY3D-Bench: Generation of 3D Assets3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.#Review#3D Generation#Dataset#Benchmark#AIGC#Watertight Mesh#Part-level Decomposition#Foundation Model#Robotics2026년 2월 4일댓글 수 로딩 중
[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…#Review#Embodied AI#Foundation Model#3D Spatial Reasoning#Temporal Value Estimation#Robotics#Manipulation#Multimodal Learning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset기존 산업용 결함 검사 시스템의 높은 오탐률, 낮은 적응성, 일반화 능력 부족, 그리고 블랙박스 모델의 해석 불가능성 한계를 극복하는 것이 목표입니다.#Review#Industrial Defect Detection#Multimodal Dataset#Vision-Language Model#Diffusion Model#Open-Vocabulary Learning#Quality Inspection#Data Efficiency#Foundation Model2026년 1월 8일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation Model기존 텍스트-투-비디오(T2V) 모델이 오디오 정보 없이 '침묵하는' 영상을 생성하는 한계를 해결하고자 합니다. 이 연구는 고품질의 시간적으로 동기화된 오디오-비주얼 콘텐츠를 텍스트 프롬프트로부터 생성하는 오픈 소스 통합 파운데이션 모델(T2AV) 인 LTX-2 를 개발하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] K-EXAONE Technical ReportLG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.#Review#Multilingual Language Model#Mixture-of-Experts (MoE)#Long Context#AI Safety#Korean AI#Foundation Model#Reinforcement Learning (RL)2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.#Review#Foundation Model#Multimodal AI#Weather Nowcasting#Radar Inversion#Weather Understanding#Chain-of-Thought#Shared Attention2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation본 연구는 파노라마 깊이 추정의 핵심 과제인 다양한 장면과 거리에서의 일반화 및 측정 일관성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Panoramic Depth Estimation#Foundation Model#Semi-Supervised Learning#Pseudo-Labeling#Data-in-the-Loop#DINOv3#Metric Depth#360-degree Vision2025년 12월 18일댓글 수 로딩 중
[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.#Review#Vision-Language Model (VLM)#Embodied AI#Autonomous Driving#Foundation Model#Multimodal Learning#Task Planning#Affordance Prediction#Spatial Understanding#Reinforcement Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Medal S: Spatio-Textual Prompt Model for Medical Segmentation의료 영상 분할에서 다양한 모달리티와 해부학적 변이로 인한 문제를 해결하고, 기존 모델의 해상도 불일치 및 순차 처리 비효율성을 극복하는 것이 목표입니다.#Review#Medical Segmentation#Foundation Model#Spatio-Textual Prompts#3D Convolution#Multi-modal Imaging#Dynamic Resampling#Parallel Inference#Iterative Refinement2025년 11월 19일댓글 수 로딩 중
[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.#Review#Earth Observation#Foundation Model#Multimodal Learning#Self-supervised Learning#Latent Image Modeling#Vision Transformer#Spatio-temporal2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Foundation Model#Radiology#Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning#Vision Transformer#Cross-Modality Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.#Review#Video Generation#Foundation Model#Diffusion Model#Transformer#Text-to-Video#Image-to-Video#Super-Resolution#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.#Review#Large Language Model#Mixture-of-Experts#Agentic AI#Reasoning#Code Generation#Reinforcement Learning#Foundation Model2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.#Review#Robotic Manipulation#World Model#Video Generation#Diffusion Model#Embodied AI#Foundation Model#Robotics Simulation#Policy Learning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Qwen-Image Technical Report본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Text Rendering#Multimodal Diffusion Transformer#Curriculum Learning#Reinforcement Learning#Foundation Model2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report본 연구는 대규모 언어 모델(LLM)의 사이버 보안 분야 통합이 데이터 부족, 복잡한 표현, 안전 및 규제 문제로 인해 제한적이라는 문제를 해결하고자 합니다.#Review#Large Language Model#Cybersecurity#Instruction Tuning#Direct Preference Optimization#Cyber Threat Intelligence#Foundation Model#Chatbot2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Human3R: Everyone Everywhere All at Once본 논문은 캐주얼하게 촬영된 모노큘러 비디오로부터 세계 좌표계 상의 온라인 4D 인간-장면 재구성 을 위한 통합적이고 피드포워드 방식의 프레임워크인 Human3R을 제안합니다. 기존의 다단계 파이프라인, 반복적 정제, 그리고 인간 감지 및 SLAM과 같은 무거운 전처리에 대한 의존성 문제를 해결하고자 합니다.#Review#4D Human-Scene Reconstruction#Online Reconstruction#Multi-person#SMPL-X#Transformer#Visual Prompt Tuning#Real-time#Foundation Model2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets본 논문은 실체화된 AI 에이전트 훈련을 위한 확장 가능한 환경 구축의 문제를 해결하고자 합니다. 기존 월드 시뮬레이터는 콘텐츠 다양성 또는 물리 정확도 중 하나에 국한되는 한계가 있으며, 특히 수동 자산 생성의 어려움으로 인해 확장성이 제한됩니다.#Review#3D Asset Generation#Simulation-Ready Assets#Diffusion Models#Physically Based Rendering (PBR)#Embodied AI#Robotic Simulation#Image-to-3D#Foundation Model2025년 10월 24일댓글 수 로딩 중
[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.#Review#Image Generation#Image Editing#Autoregressive Model#Diffusion Model#Reinforcement Learning#Multimodal AI#Foundation Model#Open-source2025년 10월 20일댓글 수 로딩 중
[논문리뷰] A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning이 논문은 추론 중심 LLM(도구 사용 불가)과 에이전트 중심 LLM(추론 능력 부족) 간의 근본적인 격차를 해결하고자 합니다.#Review#Adaptive Agent#Foundation Model#Hybrid Reasoning#Tool-Aware LLM#Mode Selection#Reinforcement Learning#Cost Efficiency#LLM Agent2025년 10월 20일댓글 수 로딩 중